Return to search

Utilização de aprendizado de máquina para classificação de bactérias através de proteínas ribossomais

Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2017-11-30T10:57:51Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5) / Made available in DSpace on 2017-11-30T10:57:51Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Douglas Tomachewski.pdf: 4287227 bytes, checksum: 4ee4e1b519755860efa6f01d55b3569f (MD5)
Previous issue date: 2017-09-04 / A identificação de microrganismos, nas áreas da saúde e agricultura, é essencial para
compreender a composição e o desenvolvimento do meio. Novas técnicas estão buscando
identificar estes microrganismos com mais acurácia, rapidez e com menor custo. Uma técnica
cada vez mais estudada e utilizada atualmente é a identificação de microrganismos através de
espectros de massa, gerados por uma espectrometria de massa. Os espectros de massa são
capazes de gerar um perfil para reconhecimento de um microrganismo, utilizando os picos
referentes às mais abundantes massas moleculares registradas nos espectros. Analisando os
picos pode-se designar um padrão, como uma impressão digital, para reconhecer um
microrganismo, esta técnica é conhecida como PMF, do inglês Peptide Mass Fingerprint. Outra
forma de identificar um espectro de massa, é através dos picos que são esperados que se
apresentem no espectro, modelo qual este trabalho utilizou. Para prever os picos esperados no
espectro, foram calculados os pesos moleculares estimados de proteínas ribossomais. Essas
proteínas são denominadas house keeping, ou seja são presentes para o próprio funcionamento
celular. Além de apresentarem grande abundância no conteúdo procariótico, elas são altamente
conservadas, não alterando sua fisiologia para diferentes meios ou estágios celulares. Os pesos
estimados formaram uma base de dados presumida, contendo todas as informações obtidas do
repositório do NCBI. Esta base de dados presumida foi generalizada para taxonomia a nível de
espécie, e posteriormente submetida à um aprendizado de máquina. Com isso foi possível obter
um modelo classificatório de microrganismos baseado em valores de proteínas ribossomais.
Utilizando o modelo gerado pelo aprendizado de máquina, foi desenvolvido um software
chamado Ribopeaks, capaz classificar os microrganismos a nível de espécie com acurácia de
94.83%, considerando as espécies correlatas. Também foram observados os resultados a nível
taxonômico de gênero, que obteve 98.69% de assertividade. Valores de massas moleculares
ribossomais biológicas retiradas da literatura também foram testadas no modelo obtido, obtendo
uma assertividade total de 84,48% para acertos em nível de espécie, e 90,51% de acerto em
nível de gênero. / Identification of microorganisms in health and agriculture areas is essential to
understand the composition and development of the environment. New techniques are seeking
to identify these microorganisms with more accuracy, speed and at a lower cost. Nowadays, a
technique that is increasingly studied and used is the identification of microorganisms through
mass spectra, generated by mass spectrometry. The mass spectra are able to generate a
recognition profile from a microorganism, using the referring peaks to the most abundant
molecular masses recorded in the spectrum. By analyzing the peaks, it is possible to designate
a pattern, such as a fingerprint, to recognize a microorganism; this technique is known as the
Peptide Mass Fingerprint (PMF). Another way to identify a mass spectrum is through the peaks
that are expected to appear in the spectrum, which model this work used. To predict the
expected peaks in the spectrum, the estimated molecular weights of ribosomal proteins were
calculated. These proteins are responsible for the cellular functioning itself, so-called
housekeeping. Besides they being abundant in the prokaryotic content, they are highly
conserved, not altering their physiology to different environments or cell stage. The estimated
weights formed a presumed database, containing all the information obtained from the NCBI’s
repository. This presumed database was generalized at the specie level and later submitted to a
machine learning algorithm. With this, it was possible to obtain a microorganism’s
classificatory model based on ribosomal proteins values. Using the generated model by the
machine learning, a software called Ribopeaks was developed to classify the microorganisms
at the specie level with an accuracy of 94.83%, considering the related species. It was also
observed the results at genus level, which obtained 98.69% of assertiveness. Values of
biological ribosomal molecular masses from the literature were also tested in the acquihired
model, obtaining a total assertiveness of 84.48% at the specie level, and 90.51% at the genus
level.

Identiferoai:union.ndltd.org:IBICT/oai:tede2.uepg.br:prefix/2408
Date04 September 2017
CreatorsTomachewski, Douglas
ContributorsCampos Júnior, Arion de, Etto, Rafael Mazer, Guimarães, Alaine Margarete, Cruz, Leonardo Magalhães, Rocha, José Carlos, Steffens, Maria Berenice Reynaud
PublisherUniversidade Estadual de Ponta Grossa, Programa de Pós Graduação Computação Aplicada, UEPG, Brasil, Departamento de Informática
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Sourcereponame:Biblioteca Digital de Teses e Dissertações da UEPG, instname:Universidade Estadual de Ponta Grossa, instacron:UEPG
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0029 seconds