• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 6
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 18
  • 8
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

GENERATING SQL FROM NATURAL LANGUAGE IN FEW-SHOT AND ZERO-SHOT SCENARIOS

Asplund, Liam January 2024 (has links)
Making information stored in databases more accessible to users inexperienced in structured query language (SQL) by converting natural language to SQL queries has long been a prominent research area in both the database and natural language processing (NLP) communities. There have been numerous approaches proposed for this task, such as encoder-decoder frameworks, semantic grammars, and more recently with the use of large language models (LLMs). When training LLMs to successfully generate SQL queries from natural language questions there are three notable methods used, pretraining, transfer learning and in-context learning (ICL). ICL is particularly advantageous in scenarios where the hardware at hand is limited, time is of concern and large amounts of task specific labled data is nonexistent. This study seeks to evaluate two strategies in ICL, namely zero-shot and few-shot scenarios using the Mistral-7B-Instruct LLM. Evaluation of the few-shot scenarios was conducted using two techniques, random selection and Jaccard Similarity. The zero-shot scenarios served as a baseline for the few-shot scenarios to overcome, which ended as anticipated, with the few-shot scenarios using Jaccard similarity outperforming the other two methods, followed by few-shot scenarios using random selection coming in at second best, and the zero-shot scenarios performing the worst. Evaluation results acquired based on execution accuracy and exact matching accuracy confirm that leveraging similarity in demonstrating examples when prompting the LLM will enhance the models knowledge about the database schema and table names which is used during the inference phase leadning to more accurately generated SQL queries than leveraging diversity in demonstrating examples.
12

Sumarizace českých textů z více zdrojů / Multi-source Text Summarization for Czech

Brus, Tomáš January 2012 (has links)
This work focuses on the summarization task for a set of articles on the same topic. It discusses several possible ways of summarizations and ways to assess their final quality. The implementation of the described algorithms and their application to selected texts constitutes a part of this work. The input texts come from several Czech news servers and they are represented as deep syntactic trees (the so called tectogrammatical layer).
13

Quelques propositions pour la comparaison de partitions non strictes

Quéré, Romain 06 December 2012 (has links) (PDF)
Cette thèse est consacrée au problème de la comparaison de deux partitions non strictes (floues/probabilistes, possibilistes) d'un même ensemble d'individus en plusieurs clusters. Sa résolution repose sur la définition formelle de mesures de concordance reprenant les principes des mesures historiques développées pour la comparaison de partitions strictes et trouve son application dans des domaines variés tels que la biologie, le traitement d'images, la classification automatique. Selon qu'elles s'attachent à observer les relations entre les individus décrites par chacune des partitions ou à quantifier les similitudes entre les clusters qui composent ces partitions, nous distinguons deux grandes familles de mesures pour lesquelles la notion même d'accord entre partitions diffère, et proposons d'en caractériser les représentants selon un même ensemble de propriétés formelles et informelles. De ce point de vue, les mesures sont aussi qualifiées selon la nature des partitions comparées. Une étude des multiples constructions sur lesquelles reposent les mesures de la littérature vient compléter notre taxonomie. Nous proposons trois nouvelles mesures de comparaison non strictes tirant profit de l'état de l'art. La première est une extension d'une approche stricte tandis que les deux autres reposent sur des approches dite natives, l'une orientée individus, l'autre orientée clusters, spécifiquement conçues pour la comparaison de partitions non strictes. Nos propositions sont comparées à celles de la littérature selon un plan d'expérience choisi pour couvrir les divers aspects de la problématique. Les résultats présentés montrent l'intérêt des propositions pour le thème de recherche qu'est la comparaison de partitions. Enfin, nous ouvrons de nouvelles perspectives en proposant les prémisses d'un cadre qui unifie les principales mesures non strictes orientées individus.
14

Δημιουργία πλατφόρμας παραγωγής προσωποποιημένων e-portfolio με δυνατότητες κοινωνικής δικτύωσης

Μυγδάκος, Δημήτριος 14 February 2012 (has links)
Ένα e-portfolio είναι μία συλλογή περιεχομένου την οποία κατασκευάζει και διατηρεί ένας χρήστης στο Web. Το περιεχόμενο μπορεί να περιλαμβάνει κείμενο, αρχεία, εικόνες, multimedia, blogs κτλ. και μπορεί να χρησιμοποιηθεί για διάφορους σκοπούς. Σκοπός της εργασίας αυτής ήταν η δημιουργία πλατφόρμας παραγωγής eportfolios, με στόχο τη διαδικτυακή της χρήση. Η όλη πλατφόρμα δημιουργήθηκε με τη χρήση των γλωσσών προγραμματισμού HTML,PHP, Javascript, Ajax και τον εξυπηρετητή βάσεων δεδομένων Mysql. Ειδικότερα, υλοποιήθηκε μια πλατφόρμα παραγωγής προσωποποιημένων eportfolio με ιδιαίτερη βαρύτητα σε λειτουργίες κοινωνικής δικτύωσης. Στα eportfolios που δημιουργούνται, ο ιδιοκτήτης έχει τη δυνατότητα να ανεβάζει εικόνες, βίντεο και έγγραφα, να τα παρουσιάζει σε galleries, να τα οργανώνει σε κατηγορίες και να παρουσιάζει πληροφορίες αναφορικά με το άτομό του. Οι χρήστες, από την άλλη, μπορούν να επισκέπτονται τα eportfolios, να βλέπουν τα αρχεία που έχει ανεβάσει ο ιδιοκτήτης, να τα σχολιάζουν, να κάνουν share ή like με τη χρήση του facebook λογαριασμού τους ή tweet με τον ατίστοιχο λογαριασμό twitter. Με τον τρόπο αυτό επιτυγχάνεται μια θετική ανάδραση μεταξύ άυτών και του ιδιοκτήτη στοχεύοντας στην ανταλλαγή απόψεων, στη βελτίωση των ικανοτήτων του κατόχου, αλλά και του συστήματος γενικότερα. Στα πρωτοποριακά χαρακτηριστικά του συστήματος περιλαμβάνεται η δυνατότητα αναζήτησης στα δύο μεγαλύτερα κοινωνικά δίκτυα (Facebook και Twitter) για οτιδήποτε σχετικό με κάποιο από τα αρχεία που έχει ανεβάσει κάποιος χρήστης στο eportfolio του. Χρησιμοποιείται για το σκοπό αυτό το API του facebook. Επίσης, το σύστημα έχει τη δυνατότητα να προτείνει στους χρήστες του να επισκεφτούν eportfolios άλλων χρηστών με παρόμοια θεματολογία με τη χρήση tags και του Jaccard index. Τέλος, δίνεται η δυνατότητα στους χρήστες να ενημερώνονται για τις τελευταίες δραστηριότητες που υπάρχουν σε όλα τα eportfolios, μέσω της υπηρεσίας RSS, εόσον βέβαια κάνουν εγγραφή σε αυτή. ολο το σύστημα υλοποιήθηκε με βασικό γνώμονα την ευχρηστία και την καλύτερη εξυπηρέτηση των χρηστών. Η εφαρμογή μπορεί να χρησιμοποιηθέι άμεσα για προσωπική χρήση από κάθε ενδιαφερόμενο, αλλά και για διδακτικούς σκοπούς στην εξ αποστάσεως εκπαίδευση. / An electronic portfolio is a collection of electronic evidence assembled and managed by a user, usually on the Web. Such electronic evidence may include inputted text, electronic files, images, multimedia, blog entries and can be used for various purposes. The aim of this thesis was the creation of an Eportfolio Development Platform, which will be used on Web. The whole platform was developed by using the HTML, PHP, Ajax and Javascript Programming Languages and the Mysql Database Management System. Specifically, the eportfolios that will be created are personalized eportfolios with many social features. The owner can upload pictures, videos and documents, present them in galleries, organize them in categories and share information about himself and his career/work. Visitors, on the other hand, can view the uploaded files, comment, share or like via facebook or tweet via twitter. As a result, there can be a very positive feedback between the owner and the visitors. The desirable outcome will be the improvement of the owner’ s skills and abilities as well as the system’s features. The new features that the system provide, include searching on the two biggest online social networks (Facebook and Twitter) for anything that is relevant to the files that are presented in the system's eportfolios. This was implemented, using the Facebook Graph API. Also, the system can suggest its users to visit eportfolios whose topic is close to their own eportfolio's topic, using tags and Jaccard index. Finally, users can be informed of the recent activity in any eportfolio, through the RSS service, if they had been subscribed on it. The whole platform was implemented with the basic concern being the usability and the best servicing for the users. The system can be used easily either for personal reasons or for elearning.
15

Identification of common and unique stress responsive genes of Arabidopsis thaliana under different abiotic stress through RNA-Seq meta-analysis

Akter, Shamima 06 February 2018 (has links)
Abiotic stress is a major constraint for crop productivity worldwide. To better understand the common biological mechanisms of abiotic stress responses in plants, we performed meta-analysis of 652 samples of RNA sequencing (RNA-Seq) data from 43 published abiotic stress experiments in Arabidopsis thaliana. These samples were categorized into eight different abiotic stresses including drought, heat, cold, salt, light and wounding. We developed a multi-step computational pipeline, which performs data downloading, preprocessing, read mapping, read counting and differential expression analyses for RNA-Seq data. We found that 5729 and 5062 genes are induced or repressed by only one type of abiotic stresses. There are only 18 and 12 genes that are induced or repressed by all stresses. The commonly induced genes are related to gene expression regulation by stress hormone abscisic acid. The commonly repressed genes are related to reduced growth and chloroplast activities. We compared stress responsive genes between any two types of stresses and found that heat and cold regulate similar set of genes. We also found that high light affects different set of genes than blue light and red light. Interestingly, ABA regulated genes are different from those regulated by other stresses. Finally, we found that membrane related genes are repressed by ABA, heat, cold and wounding but are up regulated by blue light and red light. The results from this work will be used to further characterize the gene regulatory networks underlying stress responsive genes in plants. / Master of Science
16

Evolution von Distanzmaßen für chirurgische Prozesse

Schumann, Sandra 14 May 2014 (has links) (PDF)
Der Operationssaal ist ein hochkomplexes System mit dem Ziel patientenindividuelle Therapien zum Erfolg zu führen. Schwerpunkt dieser Arbeit ist der Arbeitsablauf des Chirurgen. Ein chirurgischer Prozess beinhaltet die durchgeführten Arbeitsschritte des Operateurs während eines Eingriffffs. Der protokollierte chirurgische Prozess ist Ausgangspunkt der Untersuchungen. Es wurde eine Methodik entwickelt, die mit statistischen und standardisierten Verfahren Unterschiede zwischen dem Ablauf verschiedener chirurgischer Prozesse messen kann. Dazu wurden die vier Distanzmaße Jaccard, Levenshtein, Adjazenz und Graphmatching auf chirurgische Prozesse angewandt. Eine Evaluation anhand von Daten einer Trainingsstudie zur Untersuchung laparoskopischer Instrumente in der minimalinvasiven Chirurgie bildet die Grundlage zur Bestimmung von Levenshteindistanz und Adjazenzdistanz als die Maße, die optimal geeignet sind Unterschiede zwischen chirurgen Prozessen zu messen. Die Retrospektivität der Distanzanalyse wird aufgehoben indem folgende Hypothese untersucht wird: Es gibt einen Zusammenhang zwischen der Distanz zur Laufzeit eines chirurgischen Eingriffs mit der Distanz nach kompletten Ablauf des Eingriffs. Die Hypothese konnte bestätigt werden. Der Zusammenhang zwischen Prozessablauf und Qualität des Prozessergebnisses wird mit folgender Hypothese untersucht: Je größer die Distanz eines chirurgischen Prozesses zum Best Practice, desto schlechter ist das Prozessergebnis. In der Chirurgie ist der Best Practice der chirurgische Prozess, der als die beste Prozedur angesehen wird, um das angestrebte Therapieziel zu erreichen. Auch diese Hypothese konnte bestätigt werden. Die Anwendung der Distanzmaße in der klinischen Praxis erfolgte beispielhaft an Eingriffffen aus der Neurochirurgie (zervikale Diskektomie) und der HNO (Neck Dissection). Insgesamt wurde mit der in dieser Arbeit dargelegten grundlegenden Methodik der Distanzmaße bei der Analyse chirurgischer Prozesse ein Grundstein für vielfältige weitere Untersuchungen gelegt.
17

Evolution von Distanzmaßen für chirurgische Prozesse

Schumann, Sandra 19 March 2014 (has links)
Der Operationssaal ist ein hochkomplexes System mit dem Ziel patientenindividuelle Therapien zum Erfolg zu führen. Schwerpunkt dieser Arbeit ist der Arbeitsablauf des Chirurgen. Ein chirurgischer Prozess beinhaltet die durchgeführten Arbeitsschritte des Operateurs während eines Eingriffffs. Der protokollierte chirurgische Prozess ist Ausgangspunkt der Untersuchungen. Es wurde eine Methodik entwickelt, die mit statistischen und standardisierten Verfahren Unterschiede zwischen dem Ablauf verschiedener chirurgischer Prozesse messen kann. Dazu wurden die vier Distanzmaße Jaccard, Levenshtein, Adjazenz und Graphmatching auf chirurgische Prozesse angewandt. Eine Evaluation anhand von Daten einer Trainingsstudie zur Untersuchung laparoskopischer Instrumente in der minimalinvasiven Chirurgie bildet die Grundlage zur Bestimmung von Levenshteindistanz und Adjazenzdistanz als die Maße, die optimal geeignet sind Unterschiede zwischen chirurgen Prozessen zu messen. Die Retrospektivität der Distanzanalyse wird aufgehoben indem folgende Hypothese untersucht wird: Es gibt einen Zusammenhang zwischen der Distanz zur Laufzeit eines chirurgischen Eingriffs mit der Distanz nach kompletten Ablauf des Eingriffs. Die Hypothese konnte bestätigt werden. Der Zusammenhang zwischen Prozessablauf und Qualität des Prozessergebnisses wird mit folgender Hypothese untersucht: Je größer die Distanz eines chirurgischen Prozesses zum Best Practice, desto schlechter ist das Prozessergebnis. In der Chirurgie ist der Best Practice der chirurgische Prozess, der als die beste Prozedur angesehen wird, um das angestrebte Therapieziel zu erreichen. Auch diese Hypothese konnte bestätigt werden. Die Anwendung der Distanzmaße in der klinischen Praxis erfolgte beispielhaft an Eingriffffen aus der Neurochirurgie (zervikale Diskektomie) und der HNO (Neck Dissection). Insgesamt wurde mit der in dieser Arbeit dargelegten grundlegenden Methodik der Distanzmaße bei der Analyse chirurgischer Prozesse ein Grundstein für vielfältige weitere Untersuchungen gelegt.
18

Discovery and Analysis of Aligned Pattern Clusters from Protein Family Sequences

Lee, En-Shiun Annie 28 April 2015 (has links)
Protein sequences are essential for encoding molecular structures and functions. Consequently, biologists invest substantial resources and time discovering functional patterns in proteins. Using high-throughput technologies, biologists are generating an increasing amount of data. Thus, the major challenge in biosequencing today is the ability to conduct data analysis in an effi cient and productive manner. Conserved amino acids in proteins reveal important functional domains within protein families. Conversely, less conserved amino acid variations within these protein sequence patterns reveal areas of evolutionary and functional divergence. Exploring protein families using existing methods such as multiple sequence alignment is computationally expensive, thus pattern search is used. However, at present, combinatorial methods of pattern search generate a large set of solutions, and probabilistic methods require richer representations. They require biological ground truth of the input sequences, such as gene name or taxonomic species, as class labels based on traditional classi fication practice to train a model for predicting unknown sequences. However, these algorithms are inherently biased by mislabelling and may not be able to reveal class characteristics in a detailed and succinct manner. A novel pattern representation called an Aligned Pattern Cluster (AP Cluster) as developed in this dissertation is compact yet rich. It captures conservations and variations of amino acids and covers more sequences with lower entropy and greatly reduces the number of patterns. AP Clusters contain statistically signi cant patterns with variations; their importance has been confi rmed by the following biological evidences: 1) Most of the discovered AP Clusters correspond to binding segments while their aligned columns correspond to binding sites as verifi ed by pFam, PROSITE, and the three-dimensional structure. 2) By compacting strong correlated functional information together, AP Clusters are able to reveal class characteristics for taxonomical classes, gene classes and other functional classes, or incorrect class labelling. 3) Co-occurrence of AP Clusters on the same homologous protein sequences are spatially close in the protein's three-dimensional structure. These results demonstrate the power and usefulness of AP Clusters. They bring in similar statistically signifi cance patterns with variation together and align them to reveal protein regional functionality, class characteristics, binding and interacting sites for the study of protein-protein and protein-drug interactions, for diff erentiation of cancer tumour types, targeted gene therapy as well as for drug target discovery.

Page generated in 0.0388 seconds