• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • Tagged with
  • 9
  • 9
  • 7
  • 6
  • 5
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Um modelo de workflow cient?fico para o refinamento da estrutura 3D aproximada de prote?nas

Soletti, Leonardo Veronese 30 March 2016 (has links)
Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-06-29T11:48:00Z No. of bitstreams: 1 DIS_LEONARDO_VERONESE_SOLETTI_COMPLETO.pdf: 4509586 bytes, checksum: 932e17294867261485737bead0bba62c (MD5) / Made available in DSpace on 2017-06-29T11:48:00Z (GMT). No. of bitstreams: 1 DIS_LEONARDO_VERONESE_SOLETTI_COMPLETO.pdf: 4509586 bytes, checksum: 932e17294867261485737bead0bba62c (MD5) Previous issue date: 2016-03-30 / Conselho Nacional de Pesquisa e Desenvolvimento Cient?fico e Tecnol?gico - CNPq / As a consequence of the post-genomic era an explosion of information and numerous discoveries made available large amounts of biological data. Even with the technology enhancements regarding protein structure prediction techniques, it is still not possible to find a tool to predict with precision the exact the three-dimensional structure of a given protein. This brings new challenges, starting from how to understand and organize these resources until sharing and reuse of successful experiments, as well as how to provide interoperability between data from different sources, without mentioning the diversity between tools and different user profiles. This kind of data flow is regularly addressed as command line scripts which require users to have programming skills. Such scripts have problems interfering, collecting and storing data while executing. Furthermore, these scripts and can be very complex leading to difficulties of implementation, maintenance and reuse. Another problem that arises when a set of tasks are proposed to be conducted through scripts is the possibility of missing any step in the process or running at incorrect order, leading to inconsistent results. It becomes necessary techniques and tools to ease this process in an organized way as a sequence of steps characterized by a workflow, thus automating this process. In this context, we sought to develop a scientific workflow model using bioinformatics tools and biology expertise to automate the process of protein refinement of polypeptides predicted by CReF method once the refinement process scripts were automated, it was possible to increase the amount of experiments while maintaining an acceptable quality criteria. Finally, was developed a web interface that facilitates the visualization of the results in an organized way. / Com o advento da era p?s-gen?mica surge, como consequ?ncia, uma explos?o de informa??es onde in?meras descobertas geram grande quantidade de dados biol?gicos. Mesmo com o avan?o da tecnologia nas t?cnicas de predi??o de estruturas de prote?nas, n?o ? poss?vel ainda se encontrar uma ferramenta capaz de predizer com precis?o exata a estrutura 3D de prote?nas. Em decorr?ncia disso, surgem novos desafios para entender e organizar esses recursos nas pesquisas, o compartilhamento e reuso de experimentos bem-sucedidos, assim como prover interoperabilidade entre dados e ferramentas de diferentes locais e utilizados por usu?rios com perfis distintos. As atividades de estudos do fluxo destes dados, inicialmente, baseiam-se em scripts que auxiliam na entrada, processamento e resultado final da an?lise, normalmente executados por linha de comando, o que obriga seus usu?rios a terem dom?nio de algoritmos e l?gica de programa??o. Tais scripts apresentam problemas em interferir, coletar e armazenar dados ao longo de sua execu??o, e podem ser muito complexos, ocasionando a dificuldades de implementa??o, manuten??o e reuso. Outro problema ? quando um conjunto de tarefas a serem realizadas atrav?s de scripts, podem ter o risco de faltar algum passo no processo ou n?o ser executado na ordem certa, obtendo-se com isso resultados n?o satisfat?rios. Torna-se necess?rio t?cnicas e ferramentas que facilitem esse processo, de maneira organizada como uma sequ?ncia de etapas caracterizados por um fluxo de execu??o, automatizando-se assim este processo. Neste contexto, buscou-se desenvolver um modelo de workflow cient?fico utilizando-se ferramentas de bioinform?tica e de conhecimentos da biologia para automatizar o processo de refinamento de prote?nas, do polipept?dio predito pelo m?todo CReF. Os scripts do processo de refinamento foram automatizados, com isso foi poss?vel aumentar a quantidade de experimentos, mantendo um crit?rio de qualidade aceit?vel. Para o resultado final do processo, desenvolveu-se uma interface web que facilita a visualiza??o dos resultados de uma forma organizada.
2

Predi??o de promotores de Bacillus subtilis usando t?cnicas de aprendizado de m?quina

Monteiro, Meika Iwata 13 December 2005 (has links)
Made available in DSpace on 2014-12-17T14:56:02Z (GMT). No. of bitstreams: 1 MeikaIM.pdf: 766418 bytes, checksum: 87a604688aa5cd2c4f6aba8237c67210 (MD5) Previous issue date: 2005-12-13 / One of the most important goals of bioinformatics is the ability to identify genes in uncharacterized DNA sequences on world wide database. Gene expression on prokaryotes initiates when the RNA-polymerase enzyme interacts with DNA regions called promoters. In these regions are located the main regulatory elements of the transcription process. Despite the improvement of in vitro techniques for molecular biology analysis, characterizing and identifying a great number of promoters on a genome is a complex task. Nevertheless, the main drawback is the absence of a large set of promoters to identify conserved patterns among the species. Hence, a in silico method to predict them on any species is a challenge. Improved promoter prediction methods can be one step towards developing more reliable ab initio gene prediction methods. In this work, we present an empirical comparison of Machine Learning (ML) techniques such as Na??ve Bayes, Decision Trees, Support Vector Machines and Neural Networks, Voted Perceptron, PART, k-NN and and ensemble approaches (Bagging and Boosting) to the task of predicting Bacillus subtilis. In order to do so, we first built two data set of promoter and nonpromoter sequences for B. subtilis and a hybrid one. In order to evaluate of ML methods a cross-validation procedure is applied. Good results were obtained with methods of ML like SVM and Na?ve Bayes using B. subtilis. However, we have not reached good results on hybrid database / Um dos grandes desafios da Bioinform?tica ? manipular e analisar os dados acumulados nas bases de dados mundiais. A express?o dos genes em procariotos ? iniciada quando a enzima RNA polimerase une-se com uma regi?o pr?xima ao gene, chamada de promotor, onde ? localizado os principais elementos regulat?rios do processo de transcri??o. Apesar do crescente avan?o das t?cnicas experimentais (in vitro) em biologia molecular, caracterizar e identificar um n?mero significante de promotores ainda ? uma tarefa dif?cil. Os m?todos computacionais existentes enfrentam a falta de um n?mero adequado de promotores conhecidos para identificar padr?es conservados entre as esp?cies. Logo, um m?todo para prediz?-los em qualquer organismo procari?tico ainda ? um desafio. Neste trabalho, apresentamos uma compara??o emp?rica de t?cnicas individuais de aprendizado de m?quina, tais como: Classificador Bayesiano Ing?nuo, ?rvores de Decis?o, M?quinas de Vetores de Suporte, Redes Neurais do tipo VotedPerceptron, PART e k-Vizinhos Mais Pr?ximos e sistemas multiclassificadores (Bagging e Adaboosting) e Modelo Oculto de Markov ? tarefa de predi??o de promotores procariotos em Bacilos subtilis. Utilizamos a valida??o cruzada para avaliar todos os m?todos de AM. Para esses testes, foram constru?das base de dados com seq??ncias de promotores e n?o-promotores do Bacillus subtilis e uma base de dados h?brida. Os m?todos de AM obtiveram bons resultados com o SVM e o Na?ve Bayes. N?o conseguimos entretanto, obter resultados relevantes para a base de dados h?brida
3

Um sistema computacional para diagnosticar viroses de plantas usando a t?cnica de PCR com constru??o de primers esp?cie-espec?ficos

Rocha, Kliger Kissinger Fernandes 04 April 2005 (has links)
Made available in DSpace on 2014-12-17T14:56:06Z (GMT). No. of bitstreams: 1 KligerKFR.pdf: 1442515 bytes, checksum: b8c82b51681c5740727addb5f0eed20a (MD5) Previous issue date: 2005-04-04 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / It proposes a established computational solution in the development of a software to construct species-specific primers, used to improve the diagnosis of virus of plant for PCR. Primers are indispensable to PCR reaction, besides providing the specificity of the diagnosis. Primer is a synthetic, short, single stranded piece of DNA, used as a starter in PCR technique. It flanks the sequence desired to amplify. Species-specific primers indicate the well known region of beginning and ending where the polymerase enzyme is going to amplify on a certain species, i.e. it is specific for only a species. Thus, the main objective of this work is to automatize the process of choice of primers, optimizing the specificity of chosen primers by the traditional method / Prop?e-se uma solu??o computacional baseada no desenvolvimento de um software para construir primers esp?cie-espec?ficos, usados para melhorar o diagn?stico de viroses de planta por PCR. Primers s?o indispens?veis ? rea??o PCR, al?m de proporcionar a especificidade do diagn?stico. Um primer ? um fragmento de DNA sint?tico, curto e de fita simples, utilizado como um iniciador na t?cnica PCR que flanqueia a seq??ncia que se deseja amplificar. Primers esp?cie-espec?ficos s?o primers que s? indicam a regi?o bem conhecida de in?cio e t?rmino onde a enzima polimerase vai amplificar, de uma determinada esp?cie, ou seja, ? espec?fica para somente uma esp?cie. Assim, o objetivo principal deste trabalho ? automatizar o processo de escolha de primers, otimizando a especificidade dos primers escolhidos pelo m?todo tradicional
4

CajaDB: uma plataforma para dados moleculares de Sagui comum (Callithrix jacchus) e an?lises de transcriptoma / CajaDB: a database of common marmosets (Callithrix jacchus) and transcriptomics analysis

Nogueira, Viviane Brito 14 December 2017 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2018-03-02T23:09:14Z No. of bitstreams: 1 VivianeBritoNogueira_DISSERT.pdf: 3038632 bytes, checksum: 6b375d3a8d8d5af0979152bdca538728 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-03-13T18:02:38Z (GMT) No. of bitstreams: 1 VivianeBritoNogueira_DISSERT.pdf: 3038632 bytes, checksum: 6b375d3a8d8d5af0979152bdca538728 (MD5) / Made available in DSpace on 2018-03-13T18:02:38Z (GMT). No. of bitstreams: 1 VivianeBritoNogueira_DISSERT.pdf: 3038632 bytes, checksum: 6b375d3a8d8d5af0979152bdca538728 (MD5) Previous issue date: 2017-12-14 / O sagui comum (Callithrix jacchus), um pequeno primata de novo mundo, tem sido amplamente empregado como modelo biol?gico, n?o apenas para decifrar disfun??es em transtornos neuropsiqui?tricos como tamb?m para compreender circuitos neurais envolvidos no comportamento social humano. A este respeito, a disponibilidade de dados de express?o g?nica advindos de tecnologias nextgeneration sequencing (NGS) representam uma oportunidade para novos estudos aprofundados na gen?tica e na epigen?tica desta esp?cie. Uma das fronteiras na neuroci?ncia ? manusear esses dados em larga escala a fim de conectar vias moleculares ao comportamento do sistema nervoso. Para tornar esses dados mais acess?veis para a comunidade cient?fica sem forma??o em bioinform?tica, foi criado o CajaDB, um banco de dados que fornece uma interface web para dados de gen?mica, express?o g?nica e splicing alternativo, incluindo ferramentas para an?lises biol?gicas. Com os dados processados para esta plataforma foram realizadas duas an?lises distintas: (1) Express?o diferencial de genes nos hemisf?rios direito e esquerdo, uma vez que lateraliza??o ? um aspecto crucial do funcionamento da arquitetura cerebral para habilidades cognitivas, onde foram encontrados 49 genes diferencialmente expressos, sendo 24 para o hemisf?rio esquerdo e 25 para o hemisf?rio direito; (2) Express?o diferencial de genes entre machos e f?meas, com foco em c?rtex frontal e compara??o com dados equivalentes de humanos. Neste ?ltimo caso, foi verificado que genes com express?o enviesada para machos s?o conservados e enriquecidos para fun??es de manuten??o celular. J? genes com express?o enviesada para f?mea foram relacionados a fun??es de plasticidade neural, envolvidos com remodelamento dos circuitos sin?pticos, cascatas de estresse e comportamento visual. Com base em conhecimentos sobre dimorfismo comportamental entre sexos de saguis, ? sugerido que estas express?es diferenciais podem estar relacionadas a determinadas circuitarias neurais associadas ?s estrat?gias adaptativas de sobreviv?ncia e reprodu??o para cada sexo. Diante do exposto, espera-se que os dados dispon?veis no banco de dados associados ?s ferramentas biol?gicas dispon?veis facilitem a gera??o de hip?teses e a interpreta??o de resultados sobre o funcionamento cerebral nesta esp?cie que ? um modelo biol?gico largamente utilizado, abrindo perspectivas de investiga??o e desenvolvimento de novos tratamentos para doen?as neuropsiqui?tricas no futuro. CajaDB est? dispon?vel em cajadb.neuro.ufrn.br. / Common marmoset (Callithrix jacchus), a small New World monkey, has been widely used as a biological model not only to elucidate brain dysfunction in neuropsychiatric disorders, but also for deciphering neural circuits involved in human social behaviors. In this regard, the availability of gene expression data derived from next-generation sequencing (NGS) technologies represents an opportunity for deeper studies on the genetic and epigenetic architecture of this species. One of the frontiers in neuroscience field requires handling omics large-scale data sets for connecting molecular pathways to nervous system behavior. To make these omics datasets more accessible for the scientific community without a solid bioinformatics background, we have created CajaDB, a database that provides a friendly interface for genomic, expression and alternative splicing data, including tools for biological analyses. Using the processed data two analysis were conducted: (1) Differential expression between right and left hemispheres, once lateralization is a crucial aspect of the functional brain architecture for cognitive abilities. It was found 49 differentially expressed genes, where 24 genes had left hemisphere bias and 25 genes had right hemisphere bias. (2) Sex-biased gene expression with focus in frontal comparing to humans. It was found that genes whose expression is male biased are conserved between marmosets and humans and enriched with "housekeeping" functions. On the other hand, female-biased genes are more related to neural plasticity functions involved in remodeling of synaptic circuits, stress cascades and visual behavior. Based on knowledge of dimorphic social behavior of male and female common marmosets we discuss that these differences might be linked to neuronal circuitry underlying the expression of the adaptive strategies in each sex and related to survival and reproductive behavior traits. Hence, it is expected that data available in the webpage associated with available biological tools will facilitate generation of hypotheses and interpretation of results on brain functioning, facilitating improvements in neurological diseases treatment in the future. CajaDB is available at cajadb.neuro.ufrn.br.
5

Mapa metab?lico da intoxica??o por chumbo

Souza, Iara Dantas de 14 December 2017 (has links)
Submitted by Automa??o e Estat?stica (sst@bczm.ufrn.br) on 2018-01-18T10:52:22Z No. of bitstreams: 1 IaraDantasDeSouza_DISSERT.pdf: 2361022 bytes, checksum: 9a172e308a03ac6a5069e610ed9829b8 (MD5) / Approved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2018-01-22T15:02:53Z (GMT) No. of bitstreams: 1 IaraDantasDeSouza_DISSERT.pdf: 2361022 bytes, checksum: 9a172e308a03ac6a5069e610ed9829b8 (MD5) / Made available in DSpace on 2018-01-22T15:02:53Z (GMT). No. of bitstreams: 1 IaraDantasDeSouza_DISSERT.pdf: 2361022 bytes, checksum: 9a172e308a03ac6a5069e610ed9829b8 (MD5) Previous issue date: 2017-12-14 / Desde a antiguidade, o chumbo (Pb) vem sendo utilizado pela humanidade em virtude das suas propriedades f?sico-qu?micas, como maleabilidade, ductilidade, resist?ncia ? corros?o, baixo ponto de fus?o e baixa condutividade el?trica. Entretanto, al?m de sua import?ncia econ?mica, o chumbo possui uma import?ncia quanto ? sa?de humana, uma vez que causa intoxica??o. Muitos efeitos da intoxica??o pelo chumbo j? foram relatados na literatura, sendo respons?vel pela toxicidade nos sistemas cardiovascular, imunol?gico, ?sseo, reprodutivo, hematopoi?tico, renal, gastrointestinal e, principalmente, no sistema nervoso. Embora haja evid?ncias sobre como o chumbo afeta a homeostase em n?vel celular, a descri??o das vias metab?licas afetadas na intoxica??o por chumbo n?o est? estabelecida. Para esclarecer os efeitos da intoxica??o, o objetivo deste estudo ? propor vias metab?licas das intera??es do chumbo com os componentes celulares, atrav?s da curadoria das informa??es presentes na literatura e em reposit?rios p?blicos. Ap?s a busca na literatura, encontramos um total de 23 prote?nas, incluindo o tripept?deo glutationa, as quais s?o capazes de interagir com o chumbo e est?o relacionadas com a base celular da intoxica??o. Estas informa??es, em conjunto com outras provenientes de reposit?rios especializados, permitiram a integra??o do conhecimento em uma via metab?lica da intoxica??o por chumbo. Por meio dela, observou-se que o chumbo atua de maneira sist?mica no organismo, em especial, interferindo na fun??o normal de prote?nas as quais se ligam a metais essenciais, como zinco e c?lcio. / Since ancient times, lead (Pb) has been used by mankind because of its physicochemical properties, such as malleability, ductility, corrosion resistance, low melting point and low electrical conductivity. However, in addition to its economic importance, lead is an important human health issue since it causes intoxication. Many effects of lead intoxication have been reported in the literature, affecting the organism as a whole and causing symptoms in cardiovascular, immune, skeletal, reproductive, hematological, renal, gastrointestinal and nervous systems. Although there is evidence on how lead affects cellular homeostasis, the description of the metabolic pathways affected in lead poisoning is not fully established. To elucidate the effects of lead poisoning, the aim of this study is to propose pathways of lead interactions with cell components, through manual curation of information present in literature and public repositories. After a search in literature, it was found a total of twenty-three proteins, including glutathione, which can directly interact with lead and are related to the cellular basis of intoxication. This knowledge taken together with the information present in pathways repositories allowed the integration of the current information in a map of lead poisoning. It was observed that lead acts in a systemic way, specially interfering with the normal function of metalloproteins which rely on essential metals to the organism, such as calcium and zinc.
6

wCReF : uma interface web para o m?todo CReF de predi??o da estrutura 3D aproximada de prote?nas

Machado, Vanessa Stangherlin 26 August 2015 (has links)
Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-10-20T10:56:20Z No. of bitstreams: 1 DIS_VANESSA_STANGHERLIN_MACHADO_COMPLETO.pdf: 9505213 bytes, checksum: c355721326b3d2f7c04de64104755fac (MD5) / Made available in DSpace on 2017-10-20T10:56:20Z (GMT). No. of bitstreams: 1 DIS_VANESSA_STANGHERLIN_MACHADO_COMPLETO.pdf: 9505213 bytes, checksum: c355721326b3d2f7c04de64104755fac (MD5) Previous issue date: 2015-08-26 / Conselho Nacional de Pesquisa e Desenvolvimento Cient?fico e Tecnol?gico - CNPq / The prediction of protein tertiary structure is a problem of Structural Bioinformatics still unsolved by science. The challenge is to understand the relationship between the amino acid sequence of a protein and a three dimensional structure, which is related to the function of these macromolecules. Among the methods related to protein structure prediction is CREF (Central Residue Fragment-based Method) proposed by Dorn & Norbert Souza (2008) for prediction of proteins? or polypeptide?s approximate 3D structure. In this thesis we present the wCReF, the Web interface for the CREF method developed with a focus on usability. With this tool the users can enter the amino acid sequence of its target protein, and get as a result the approximate 3D structure of a protein in an automated manner without the need to install all the necessary tools for their use. To define the requirements for its development were conducted usability evaluations, guided by experts on both Human-Computer Interaction and bioinformatics domain areas, in three protein structures prediction servers - I-TASSER, QUARK and Robetta - all participants at CASP (Critical Assessment of Protein Structure Prediction) competition. The inspections were conducted through the Heuristic Evaluation method using Nielsens? 10 heuristics. As a result, violations were found in all heuristics resulting in 89 usability problems. They were classified into 5 severities, 29 scored as being of high priority solution and 25 as problems to be solved immediately. Assessment results serve as guiding orientation of the key features that wCReF must have compiled in a document software requirements for its implementation. From this step was carried out prototyping and glimpsing the detection of new usability problems with end users by adapting the Ssemugabi satisfaction questionnaire. As a final product we present the wCReF server, protein structure prediction server rooted in concern about the usability and interaction with its users. Furthermore, this study can contribute to improvement of usability of existing bioinformatics applications, the prediction servers analyzed and the development of new scientific tools. / A predi??o da estrutura terci?ria de prote?nas ? um problema da Bioinform?tica Estrutural ainda n?o solucionado pela ci?ncia. O desafio ? entender a rela??o entre a sequ?ncia de amino?cidos de uma prote?na e sua estrutura tridimensional 3D, que est? relacionada ? fun??o destas macromol?culas. Dentre os m?todos relacionados ? predi??o de estruturas de prote?nas est? o M?todo CReF (Central Residue Fragment-based Method), proposto por Dorn & Norberto de Souza (2008), para predi??o da estrutura 3D aproximada de uma prote?na ou polipept?dio. Nesta disserta??o, apresentamos o wCReF, a interface Web para o m?todo CReF desenvolvida com o enfoque em usabilidade. Com esta ferramenta o usu?rio informa a sequ?ncia de amino?cidos de sua prote?na alvo, e como resultado obt?m a estrutura 3D aproximada de uma prote?na, de forma automatizada, sem a necessidade de instala??o das ferramentas necess?rias para sua utiliza??o. Para definir os requisitos necess?rios para seu desenvolvimento foram realizadas avalia??es de usabilidade, realizadas por especialistas em Intera??o Humano-Computador e da ?rea de dom?nio, a bioinform?tica, em tr?s servidores de predi??o de estruturas de prote?nas - I-TASSER, QUARK e Robetta - todos participantes do CASP (Critical Assessment of protein Structure Prediction). As inspe??es foram realizadas atrav?s do m?todo de Avalia??o Heur?stica, utilizando as 10 heur?sticas de Nielsen. Como resultado, foram encontradas viola??es em todas as heur?sticas e detectados 89 problemas de usabilidade. Eles foram classificados em 5 severidades, 29 pontuados como sendo de alta prioridade de solu??o e 25 problemas de resolu??o imediata. Os resultados das avalia??es serviram como orienta??o norteadora dos principais recursos que o wCReF deveria possuir, compilados em um documento de requisitos de software, para sua implementa??o. A partir desta etapa foi realizada a prototipagem, vislumbrando a detec??o de novos problemas de usabilidade, com os usu?rios finais, atrav?s da adapta??o do question?rio de satisfa??o de Ssemugabi. Como produto final, apresentamos o servidor wCReF alicer?ado na preocupa??o com a usabilidade e intera??o com seus usu?rios. Al?m disso, este estudo pode contribuir para melhoria da usabilidade das aplica??es de bioinform?tica j? existentes, dos servidores de predi??o analisados e no desenvolvimento de novas ferramentas cient?ficas.
7

Algoritmos de agrupamento aplicados a dados de express?o g?nica de c?ncer: um estudo comparativo

Ara?jo, Daniel Sabino Amorim de 11 November 2008 (has links)
Made available in DSpace on 2014-12-17T15:47:48Z (GMT). No. of bitstreams: 1 DanielSAA.pdf: 691771 bytes, checksum: c2a3333a69e8d426409687ac8cfac27f (MD5) Previous issue date: 2008-11-11 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods / O uso de t?cnicas de agrupamento na descoberta de subtipos de c?ncer tem atra?do grande aten??o da comunidade cient?fica. Enquanto bioinformatas prop?em novas t?cnicas de agrupamento que levam em considera??o caracter?sticas dos dados de express?o g?nica, a comunidade m?dica prefere utilizar as t?cnicas cl?ssicas de agrupamento. De fato, n?o existem trabalhos na literatura que realizam uma avalia??o em grande escala de t?cnicas de agrupamento nesse contexto. Diante disso, este trabalho apresenta o primeiro estudo em grande escala de sete t?cnicas de agrupamento e quatro medidas de proximidade para a an?lise de 35 conjuntos de dados de express?o g?nica. Mais especificamente, os resultados mostram que a t?cnica mistura finita de gaussianas, seguida pelo k-means, apresentam os melhores resultados em termos de recupera??o da estrutura natural dos dados. Esses m?todos tamb?m apresentam a menor diferen?a entre o n?mero real de classes e o n?mero de grupos presente na melhor parti??o. Al?m disso, os m?todos de agrupamento hier?rquico, que v?m sendo bastante utilizados pela comunidade m?dica, apresentaram os piores resultados quando comparados com os outros m?todos investigados. Este trabalho tamb?m apresenta, como uma refer?ncia est?vel para a avalia??o e compara??o de diferentes algoritmos de agrupamento para dados de express?o g?nica de c?ncer, um conjunto de bases de dados (benchmark data sets) que pode ser compartilhado entre pesquisadores e usado na compara??o de novos m?todos
8

Biodegrada??o de hidrocarbonetos arom?ticos polic?clicos: prospec??o metagen?mica e modelagem computacional 3-D de prote?nas

Sousa, Bruno Gomes de 23 May 2011 (has links)
Made available in DSpace on 2014-12-17T14:10:23Z (GMT). No. of bitstreams: 1 BrunoGS_DISSERT_partes autorizadas.pdf: 2090858 bytes, checksum: 96c920960475d5970880d27da7b95ada (MD5) Previous issue date: 2011-05-23 / Conselho Nacional de Desenvolvimento Cient?fico e Tecnol?gico / Knowledge of the native prokaryotes in hazardous locations favors the application of biotechnology for bioremediation. Independent strategies for cultivation and metagenomics contribute to further microbiological knowledge, enabling studies with non-cultivable about the "native microbiological status and its potential role in bioremediation, for example, of polycyclic aromatic hydrocarbons (HPA's). Considering the biome mangrove interface fragile and critical bordering the ocean, this study characterizes the native microbiota mangrove potential biodegradability of HPA's using a biomarker for molecular detection and assessment of bacterial diversity by PCR in areas under the influence of oil companies in the Basin Petroleum Geology Potiguar (BPP). We chose PcaF, a metabolic enzyme, to be the molecular biomarker in a PCR-DGGE detection of prokaryotes that degrade HPA s. The PCR-DGGE fingerprints obtained from Paracuru-CE, Fortim-CE and Areia Branca-RN samples revealed the occurrence of fluctuations of microbial communities according to the sampling periods and in response to the impact of oil. In the analysis of microbial communities interference of the oil industry, in Areia Branca-RN and Paracuru-CE was observed that oil is a determinant of microbial diversity. Fortim-CE probably has no direct influence with the oil activity. In order to obtain data for better understanding the transport and biodegradation of HPA's, there were conducted in silico studies with modeling and simulation from obtaining 3-D models of proteins involved in the degradation of phenanthrene in the transport of HPA's and also getting the 3-D model of the enzyme PcaF used as molecular marker in this study. Were realized docking studies with substrates and products to a better understanding about the transport mechanism and catalysis of HPA s / O conhecimento sobre os procariotos nativos em locais de risco favorece a aplica??o de biotecnologias para biorremedia??o. Estrat?gias independentes de cultivo, como metagen?mica, contribuem para aprofundar o conhecimento microbiol?gico, possibilitando estudos com organismos n?o cultiv?veis acerca do status microbiol?gico nativo e seu potencial papel na biodegrada??o de, por exemplo, Hidrocarbonetos Arom?ticos Polic?clicos (HAP s). Considerando o bioma de mangue uma interface fr?gil e cr?tica de fronteira com o oceano, este trabalho caracteriza a microbiota nativa de mangue com potencial biodegradador de HAP s utilizando um biomarcador molecular para detec??o e avalia??o da diversidade bacteriana em ?reas sob influ?ncia de ind?strias petrol?feras atrav?s da PCR-DGGE na Bacia Petrol?fera Potiguar (BPP). Foi escolhido um biomarcador molecular metab?lico, enzima PcaF, para detec??o de procariotos degradadores de HAP s. Com o biomarcador, fingerprints foram obtidos de amostras de Paracuru-CE, Fortim-CE e Areia Branca-RN, revelando a ocorr?ncia de flutua??es das comunidades microbianas de acordo com os per?odos de amostragem e em resposta ao impacto por petr?leo. Atrav?s da an?lise das comunidades microbianas frente ? interfer?ncia da ind?stria do petr?leo, em Areia Branca-RN e Paracuru-CE foi observado que o petr?leo ? determinante para a diversidade microbiana. Fortim-CE provavelmente n?o tem influ?ncia direta da atividade petrol?fera. No intuito de obter dados para o melhor entendimento do transporte e biodegrada??o de HAP s, foram desenvolvidos estudos in silico de modelagem e simula??o computacional a partir da obten??o de modelos 3-D de prote?nas envolvidas na degrada??o do fenantreno, no transporte de HAP s e tamb?m a obten??o do modelo 3-D da enzima PcaF. Estudos de dockings com substratos e produtos forneceram dados para o melhor entendimento sobre o mecanismo de transporte e cat?lise de HAP s
9

Aplica??o de t?cnicas de aprendizado de m?quina no reconhecimento de classes estruturais de prote?nas

Bittencourt, Valnaide Gomes 25 November 2005 (has links)
Made available in DSpace on 2014-12-17T14:56:03Z (GMT). No. of bitstreams: 1 ValnaideGB.pdf: 1369975 bytes, checksum: 404710d72240200cbd30a9116933d340 (MD5) Previous issue date: 2005-11-25 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior / Nowadays, classifying proteins in structural classes, which concerns the inference of patterns in their 3D conformation, is one of the most important open problems in Molecular Biology. The main reason for this is that the function of a protein is intrinsically related to its spatial conformation. However, such conformations are very difficult to be obtained experimentally in laboratory. Thus, this problem has drawn the attention of many researchers in Bioinformatics. Considering the great difference between the number of protein sequences already known and the number of three-dimensional structures determined experimentally, the demand of automated techniques for structural classification of proteins is very high. In this context, computational tools, especially Machine Learning (ML) techniques, have become essential to deal with this problem. In this work, ML techniques are used in the recognition of protein structural classes: Decision Trees, k-Nearest Neighbor, Naive Bayes, Support Vector Machine and Neural Networks. These methods have been chosen because they represent different paradigms of learning and have been widely used in the Bioinfornmatics literature. Aiming to obtain an improvment in the performance of these techniques (individual classifiers), homogeneous (Bagging and Boosting) and heterogeneous (Voting, Stacking and StackingC) multiclassification systems are used. Moreover, since the protein database used in this work presents the problem of imbalanced classes, artificial techniques for class balance (Undersampling Random, Tomek Links, CNN, NCL and OSS) are used to minimize such a problem. In order to evaluate the ML methods, a cross-validation procedure is applied, where the accuracy of the classifiers is measured using the mean of classification error rate, on independent test sets. These means are compared, two by two, by the hypothesis test aiming to evaluate if there is, statistically, a significant difference between them. With respect to the results obtained with the individual classifiers, Support Vector Machine presented the best accuracy. In terms of the multi-classification systems (homogeneous and heterogeneous), they showed, in general, a superior or similar performance when compared to the one achieved by the individual classifiers used - especially Boosting with Decision Tree and the StackingC with Linear Regression as meta classifier. The Voting method, despite of its simplicity, has shown to be adequate for solving the problem presented in this work. The techniques for class balance, on the other hand, have not produced a significant improvement in the global classification error. Nevertheless, the use of such techniques did improve the classification error for the minority class. In this context, the NCL technique has shown to be more appropriated / Atualmente, a classifica??o estrutural de prote?nas, que diz respeito ? infer?ncia de padr?es em sua conforma??o 3D, ? um dos principais problemas em aberto da Biologia Molecular. Esse problema vem recebendo a aten??o de muitos pesquisadores na ?rea de Bioinform?tica pelo fato de as fun??es das prote?nas estarem intrinsecamente relacionadas ?s suas diferentes conforma??es espaciais, que s?o de dif?cil obten??o experimental em laborat?rio. Considerando a grande diferen?a entre o n?mero de seq??ncias de prote?nas conhecidas e o n?mero de estruturas tridimensionais determinadas experimentalmente, ? alta a demanda por t?cnicas automatizadas de classifica??o estrutural de prote?nas. Nesse contexto, as ferramentas computacionais, principalmente as t?cnicas de Aprendizado de M?quina (AM), tornaram-se alternativas essenciais para tratar esse problema. Neste trabalho, t?cnicas de AM s?o empregadas no reconhecimento de classes estruturais de prote?nas: ?rvore de Decis?o, k-Vizinhos Mais Pr?ximos, Na?ve Bayes, M?quinas de Vetores Suporte e Redes Neurais Artificiais. Esses m?todos foram escolhidos por representarem diferentes paradigmas de aprendizado e serem bastante citados na literatura. Visando conseguir uma melhoria de desempenho na solu??o do problema abordado, sistemas de multiclassifica??o homog?nea (Bagging e Boosting) e heterog?nea (Voting, Stacking e StackingC) s?o aplicados nesta pesquisa, usando como base as t?cnicas de AM anteriormente mencionadas. Al?m disso, pelo fato de a base de dados de prote?nas considerada neste trabalho apresentar o problema de classes desbalanceadas, t?cnicas artificiais de balanceamento de classes (Under-sampling Aleat?rio, Tomek Links, CNN, NCL e OSS) s?o utilizadas a fim de minimizar esse problema e melhorar o desempenho dos classificadores. Para a avalia??o dos m?todos de AM, um procedimento de valida??o cruzada ? empregado, em que a acur?cia dos classificadores ? medida atrav?s das m?dias da taxa de classifica??o incorreta nos conjuntos de testes independentes. Essas m?dias s?o comparadas duas a duas pelo teste de hip?tese a fim de avaliar se h? diferen?a estatisticamente significativa entre elas. Com os resultados obtidos, pode-se observar, entre os classificadores base, o desempenho superior do m?todo M?quinas de Vetores Suporte. Os sistemas de multiclassifica??o (homog?nea e heterog?nea), por sua vez, apresentaram, em geral, uma acur?cia superior ou similar a dos classificadores usados como base, destacando-se o Boosting que usou ?rvore de Decis?o em sua forma??o e o StackingC tendo como meta classificador a Regress?o Linear. O m?todo Voting, apesar de sua simplicidade, tamb?m mostrou-se adequado para a solu??o do problema considerado nesta disserta??o. Em rela??o ?s t?cnicas de balanceamento de classes, n?o foram alcan?ados melhores resultados de classifica??o global com as bases de dados obtidas com a aplica??o de tais t?cnicas. No entanto, foi poss?vel uma melhor classifica??o espec?fica da classe minorit?ria, de dif?cil aprendizado. A t?cnica NCL foi a que se mostrou mais apropriada ao balanceamento de classes da base de dados de prote?nas

Page generated in 0.4453 seconds