CASSANDRA: drug gene association prediction via text mining and ontologiesKissa, Maria 20 January 2015 (has links)
The amount of biomedical literature has been increasing rapidly during the last decade. Text mining techniques can harness this large-scale data, shed light onto complex drug mechanisms, and extract relation information that can support computational polypharmacology. In this work, we introduce CASSANDRA, a fully corpus-based and unsupervised algorithm which uses the MEDLINE indexed titles and abstracts to infer drug gene associations and assist drug repositioning. CASSANDRA measures the Pointwise Mutual Information (PMI) between biomedical terms derived from Gene Ontology (GO) and Medical Subject Headings (MeSH). Based on the PMI scores, drug and gene profiles are generated and candidate drug gene associations are inferred when computing the relatedness of their profiles.
Results show that an Area Under the Curve (AUC) of up to 0.88 can be achieved. The algorithm can successfully identify direct drug gene associations with high precision and prioritize them over indirect drug gene associations. Validation shows that the statistically derived profiles from literature perform as good as (and at times better than) the manually curated profiles.
In addition, we examine CASSANDRA’s potential towards drug repositioning. For all FDA-approved drugs repositioned over the last 5 years, we generate profiles from publications before 2009 and show that the new indications rank high in these profiles. In summary, co-occurrence based profiles derived from the biomedical literature can accurately predict drug gene associations and provide insights onto potential repositioning cases.
Analýza systému Medline/PubMed / Analysis of Medline/PubMedVejvoda, Tomáš January 2016 (has links)
The diploma thesis examines biomedicine bibliographic databases MEDLINE and PubMed, both developed, maintained and provided by the U. S. National Library of Medicine (NLM). A general goal of thesis is offering answers to the question of historical and current importance of these resources. Text deals with a historical context of databases formation and their reflection in Czechoslovakian and Czech scientific community, what is also supported by qualitative research conducted as part of the thesis. Main part of the thesis deals with comprehensive analysis of the databases within environment formed by the NLM; analysis of systems components and PubMed graphic user interface and its query language. The thesis also presents issues of accessing databases content through third parties alternative platforms or interfaces built upon E-Utilities API. In the end, thesis offers ideas on probable development of MEDLINE and PubMed databases in the near and distant future. Powered by TCPDF (www.tcpdf.org)
Construction et validation de filtres de recherche bibliographique pour soutenir la prise de décisions basée sur les évidences : le cas de la sécurité des patients.Tanon, Affaud A. 10 1900 (has links)
Les filtres de recherche bibliographique optimisés visent à faciliter le repérage de l’information dans les bases de données bibliographiques qui sont presque toujours la source la plus abondante d’évidences scientifiques. Ils contribuent à soutenir la prise de décisions basée sur les évidences. La majorité des filtres disponibles dans la littérature sont des filtres méthodologiques. Mais pour donner tout leur potentiel, ils doivent être combinés à des filtres permettant de repérer les études couvrant un sujet particulier. Dans le champ de la sécurité des patients, il a été démontré qu’un repérage déficient de l’information peut avoir des conséquences tragiques. Des filtres de recherche optimisés couvrant le champ pourraient s’avérer très utiles.
La présente étude a pour but de proposer des filtres de recherche bibliographique optimisés pour le champ de la sécurité des patients, d’évaluer leur validité, et de proposer un guide pour l’élaboration de filtres de recherche.
Nous proposons des filtres optimisés permettant de repérer des articles portant sur la sécurité des patients dans les organisations de santé dans les bases de données Medline, Embase et CINAHL. Ces filtres réalisent de très bonnes performances et sont spécialement construits pour les articles dont le contenu est lié de façon explicite au champ de la sécurité des patients par leurs auteurs. La mesure dans laquelle on peut généraliser leur utilisation à d’autres contextes est liée à la définition des frontières du champ de la sécurité des patients. / Optimized bibliographic search filters are designed to facilitate information retrieval in bibliographic databases, which are almost always the most abundant source of scientific evidence. The purpose of such filters is to support evidence-based decision making. Many of the filters available in the literature are methodological search filters. To reach their full potential they need to be combined with subject filters that identify studies covering a particular topic. In the field of patient safety, it has been demonstrated that deficiencies in the information retrieval process can lead to tragic consequences. Optimized bibliographic search filters covering the field could thus be very useful.
This study is intended to provide subject bibliographic search filters optimized for the field of patient safety, assess their validity, and offer a guide for developing optimized bibliographic search filters.
We propose high-performing bibliographic search filters to retrieve papers dealing with patient safety in health care organizations, that have been explicitly defined as relevant to the patient safety field by their authors, in Medline, Embase and CINAHL. The main generalization issue lies in defining the boundaries of the patient safety field.
Analysis of the long term dynamics in thesaurus developments and its consequencesTavakolizadeh-Ravari, Mohammad 20 August 2007 (has links)
Die Arbeit analysiert die dynamische Entwicklung und den Gebrauch von Thesaurusbegriffen. Zusätzlich konzentriert sie sich auf die Faktoren, die die Zahl von Indexbegriffen pro Dokument oder Zeitschrift beeinflussen. Als Untersuchungsobjekt dienten der MeSH und die entsprechende Datenbank „MEDLINE“. Die wichtigsten Konsequenzen sind: 1. Der MeSH-Thesaurus hat sich durch drei unterschiedliche Phasen jeweils logarithmisch entwickelt. Solch einen Thesaurus sollte folgenden Gleichung folgen: „T = 3.076,6 Ln (d) – 22.695 + 0,0039d“ (T = Begriffe, Ln = natürlicher Logarithmus und d = Dokumente). Um solch einen Thesaurus zu konstruieren, muss man demnach etwa 1.600 Dokumente von unterschiedlichen Themen des Bereiches des Thesaurus haben. Die dynamische Entwicklung von Thesauri wie MeSH erfordert die Einführung eines neuen Begriffs pro Indexierung von 256 neuen Dokumenten. 2. Die Verteilung der Thesaurusbegriffe erbrachte drei Kategorien: starke, normale und selten verwendete Headings. Die letzte Gruppe ist in einer Testphase, während in der ersten und zweiten Kategorie die neu hinzukommenden Deskriptoren zu einem Thesauruswachstum führen. 3. Es gibt ein logarithmisches Verhältnis zwischen der Zahl von Index-Begriffen pro Aufsatz und dessen Seitenzahl für die Artikeln zwischen einer und einundzwanzig Seiten. 4. Zeitschriftenaufsätze, die in MEDLINE mit Abstracts erscheinen erhalten fast zwei Deskriptoren mehr. 5. Die Findablity der nicht-englisch sprachigen Dokumente in MEDLINE ist geringer als die englische Dokumente. 6. Aufsätze der Zeitschriften mit einem Impact Factor 0 bis fünfzehn erhalten nicht mehr Indexbegriffe als die der anderen von MEDINE erfassten Zeitschriften. 7. In einem Indexierungssystem haben unterschiedliche Zeitschriften mehr oder weniger Gewicht in ihrem Findability. Die Verteilung der Indexbegriffe pro Seite hat gezeigt, dass es bei MEDLINE drei Kategorien der Publikationen gibt. Außerdem gibt es wenige stark bevorzugten Zeitschriften. / This dissertation analyzes dynamic developments and use of thesauri. It focuses also on six effecting factors on the number of index terms per document or journal. MeSH and its corresponding well known database “MEDLINE” were established to conduct this research. The main consequences of statistical analyses are: 1. MeSH has developed logarithmically through three different phases. Such a thesaurus should follow the equation “T = 3,076.6 Ln(d) –22,695 + 0.0039d” (T = thesaurus terms, Ln = natural logarithm, and d = documents). To construct such a thesaurus, one needs to have at least 1,600 documents covering different topics of the thesaurus. The dynamic of thesauri such as MeSH is due to the persistent inclusion of one new term per indexing of 256 new documents. 2. The distribution of thesaurus terms yielded three classes: highly, normally, and rarely used terms. The last group is in a test phase, and only growth rates of most frequented terms in the first class and newer terms in the second class were becoming persistent over time. 3. There is a logarithmic relationship between the number of index terms per article and its pages, if the articles are between one and twenty-one pages. 4. Journal articles with abstracts received almost two more terms than those included into MEDLINE without abstracts. 5. The findability of non-English documents, such as articles written in German and indexed in an US-based database like MEDLINE, is less than that of English documents. The greatest difference is for articles with ten pages and the least is for those with twenty and more pages. 6. Journals with Impact Factors in the range from 0 to fifteen receive roughly the same number of index terms per page. 7. In an indexing system, different journals have more or less weight in their findability. Distribution of index terms per page has shown that there are three regions of journals in MEDLINE. In addition, few journals are the most favored ones and get more index term per page.
Scientometric study of patent literature in MEDLINE & SCIBiglu, Mohammad Hossein 28 February 2008 (has links)
Die Studie wird in fünf Teile unterteilt: Das erste Kapitel beschäftigt sich mit Patentanmeldungen und geförderten Patenten im USPTO, WIPO, und EPO. In diesem Kapitel wird die Korrelation zwischen dem BIP und der länderspezifischen Patentanzahl analysiert. Das zweite Kapitel gibt einen Überblick über die Literatur über Patente in MEDLINE. In diesem Kapitel wird eine szientometrische Analyse durchgeführt, damit die Entwicklung der Patentliteratur in MEDLINE über den Zeitraum von 1965 bis 2005 quantitativ gemessen werden kann. Das dritte Kapitel befasst sich mit der Literatur über Patente im SCI. In diesem Kapitel werden alle Dokumente, die vom SCI über den Zeitraum 1965 bis 2005 als “Patents“ indexiert wurden, unter die Lupe genommen. Das vierte Kapitel analysiert die Patenten, die im SCI zitiert werden. Das fünfte Kapitel analysiert die Anzahl der Literaturhinweise (Referenzen) pro Veröffentlichung im SCI über den Zeitraum 1970-2005. In diesem Hinblick wurde eine Gesamtzahl von 10,000 Dokumenten pro Jahr ausgesucht sowie der Bedeutungswert von Nennungen pro Zeitschrift berechnet. Die Analyse der Daten ergab: Die USA sind das führende Land bezüglich der Erstellung und der Zulassung von Patenten, gleichermaßen gefolgt von Japan und Deutschland. Die Halbwertszeit der Zitierung von Patenten beträgt seit 1994 konstant 8,1 Jahre. Das ist eine 41% längere Zitierungsrate gegenüber den allgemeinen wissenschaftlichen Dokumenten im SCI. Es gibt eine lineare Korrelation zwischen der Zahl von Literaturhinweisen (Referenzen) in einem Journal, wie sie im SCI erfasst sind, und der Wahrscheinlichkeit zitiert zu werden. Die Anzahl der Literaturhinweise (Referenzen) pro Veröffentlichung zwischen 1970 und 2005 im SCI ist ständig angestiegen. Die Selbstzitation von Zeitschriften bei einer steigenden Zahl von Verweisen beeinflusst die Steigerung des Impact Factor im SCI. Die Leitartikelpolitik der Sprachen wurde in der MEDLINE und im SCI geändert. / This study is divided into five sections. The first section consists of patent applications and granted patents issued by USPTO, WIPO), and EPO. In this section the relationship between the GDP and country’s patent quantity is analysed. The second section analysis the patent literature in MEDLINE. In this section a scientometric analysis is performed to assess the quantitative trend of patent literature in MEDLINE throughout 1965-2005. The third section analysis the patent literature in the SCI. In this section all documents indexed as a topic of “patents” in the SCI throughout 1965-2005 are analysed. The fourth section analysis the citations to the patent documents indexed in the SCI, and illustrate the average number of cited references per paper for patent citing documents. The fifth section analysis the references per paper in the SCI through 1970-2005. The Analyses of data showed: The USA is the leading country filing and granting patents followed by Japan and Germany respectively. The half-life of citations to the patent-documents is 41% higher than the half-life of citations to the general scientific documents in the SCI. The number of references per paper from 1970 to 2005 has steadily increased. The rough constant percentage of self-citation of journals and the growing increase of references per paper led to the absolute growing number of self-citations and to the increase of the Impact Factor of the citing journals in the SCI. The editorial policy of languages is being changed in MEDLINE and in the SCI. The consideration of policy makers in these databases have been focused on the literature of science in English. There was a tendency in the last decades towards collaboration in scientific publishing with American authors that can be observed in the SCI with authors from different countries.
