Return to search

A Convolutional Neural Network for predicting HIV Integration Sites

Convolutional neural networks are commonly used when training deep networks with time-independent data and have demonstrated positive results in predicting DNA binding sites for DNA-binding proteins. Based upon the success of convolutional neural networks in predicting DNA binding sites of proteins, this project intends to determine if a convolutional neural network could predict possible HIV-B provirus integration sites. When exploring existing research, little information was found regarding DNA sequences targeted by HIV for integration, few, if any, have attempted to use artificial neural networks to identify these sequences and the integration sites themselves. Using data from the Retrovirus Integration Database, we train a convolutional artificial neural network to determine if it can detect potential target sites for HIV integration. The analysis and results reveal that the created convolutional neural network is able to predict HIV integration sites in human DNA with an accuracy that exceeds that of a potential random binary classifier. When analyzing the datasets separated by the neural network, the relative distribution of the different nucleotides in the immediate vicinity of HIV integration site reveals that some nucleotides are disproportionately occurring less often at these sites compared to nucleotides in randomly sampled human DNA. / Konvolutionella artificiella nätverk används vanligen vid tidsoberoende datamängder. Konvolutionella artificiella nätverk har varit framgångsrika med att förutse bindningssiter för DNA-bindande proteiner. Med de framsteg som gjorts med konvolutionella artificiella nätverk vill detta projekt bestämma huruvida det går att med ett konvolutionellt artificiella nätverk förutsäga möjliga siter för HIV-B integration i mänskligt DNA. Våran eftersökning visar att det finns lite kunskap om huruvida det finns nukleotidsekvenser i mänskligt DNA som främjar HIV integration. Samtidigt har få eller inga studier gjorts med konvolutionella artificiella nätverk i försök att förutsäga integrationssiter för HIV i mänskligt DNA. Genom att använda data från Retrovirus Integration Database tänker vi träna ett konvolutionellt artificiellt nätverk med syftet att försöka bestämma huruvida det tränade konvolutionella artificiella nätverket kan förutspå potentiella integrationssiter för HIV. Våra resultat visar att det skapade konvolutionella artificiella nätverket kan förutsäga HIV integration i mänskligt DNA med en träffsäkerhet som överträffar en potentiell slumpmässig binär klassificerare. Vid analys av datamängderna separerade av det neurala nätverket framträder en bild där vissa nukleotider förekommer oproportionerligt mindre frekvent i närheten av integrationssiterna i jämförelse med nukleotider i slumpmässigt genererad mänsklig DNA.

Identiferoai:union.ndltd.org:UPSALLA1/oai:DiVA.org:kth-279796
Date January 2020
CreatorsMatuh Delic, Senad
PublisherKTH, Skolan för elektroteknik och datavetenskap (EECS)
Source SetsDiVA Archive at Upsalla University
LanguageEnglish
Detected LanguageSwedish
TypeStudent thesis, info:eu-repo/semantics/bachelorThesis, text
Formatapplication/pdf
Rightsinfo:eu-repo/semantics/openAccess
RelationTRITA-EECS-EX ; 2020:318

Page generated in 0.0908 seconds