• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • 3
  • 1
  • Tagged with
  • 12
  • 12
  • 12
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Efficient LU Factorization for Texas Instruments Keystone Architecture Digital Signal Processors / Effektiv LU-faktorisering för Texas Instruments digitala signalprocessorer med Keystone-arkitektur

Netzer, Gilbert January 2015 (has links)
The energy consumption of large-scale high-performance computer (HPC) systems has become one of the foremost concerns of both data-center operators and computer manufacturers. This has renewed interest in alternative computer architectures that could offer substantially better energy-efficiency.Yet, the for the evaluation of the potential of these architectures necessary well-optimized implementations of typical HPC benchmarks are often not available for these for the HPC industry novel architectures. The in this work presented LU factorization benchmark implementation aims to provide such a high-quality tool for the HPC industry standard high-performance LINPACK benchmark (HPL) for the eight-core Texas Instruments TMS320C6678 digitalsignal processor (DSP). The presented implementation could perform the LU factorization at up to 30.9 GF/s at 1.25 GHz core clock frequency by using all the eight DSP cores of the System-on-Chip (SoC). This is 77% of the attainable peak double-precision floating-point performance of the DSP, a level of efficiency that is comparable to the efficiency expected on traditional x86-based processor architectures. A presented detailed performance analysis shows that this is largely due to the optimized implementation of the embedded generalized matrix-matrix multiplication (GEMM). For this operation, the on-chip direct memory access (DMA) engines were used to transfer the necessary data from the external DDR3 memory to the core-private and shared scratchpad memory. This allowed to overlap the data transfer with computations on the DSP cores. The computations were in turn optimized by using software pipeline techniques and were partly implemented in assembly language. With these optimization the performance of the matrix multiplication reached up to 95% of attainable peak performance. A detailed description of these two key optimization techniques and their application to the LU factorization is included. Using a specially instrumented Advantech TMDXEVM6678L evaluation module, described in detail in related work, allowed to measure the SoC’s energy efficiency of up to 2.92 GF/J while executing the presented benchmark. Results from the verification of the benchmark execution using standard HPL correctness checks and an uncertainty analysis of the experimentally gathered data are also presented. / Energiförbrukningen av storskaliga högpresterande datorsystem (HPC) har blivit ett av de främsta problemen för såväl ägare av dessa system som datortillverkare. Det har lett till ett förnyat intresse för alternativa datorarkitekturer som kan vara betydligt mer effektiva ur energiförbrukningssynpunkt. För detaljerade analyser av prestanda och energiförbrukning av dessa för HPC-industrin nya arkitekturer krävs väloptimerade implementationer av standard HPC-bänkmärkningsproblem. Syftet med detta examensarbete är att tillhandhålla ett sådant högkvalitativt verktyg i form av en implementation av ett bänkmärkesprogram för LU-faktorisering för den åttakärniga digitala signalprocessorn (DSP) TMS320C6678 från Texas Instruments. Bänkmärkningsproblemet är samma som för det inom HPC-industrin välkända bänkmärket “high-performance LINPACK” (HPL). Den här presenterade implementationen nådde upp till en prestanda av 30,9 GF/s vid 1,25 GHz klockfrekvens genom att samtidigt använda alla åtta kärnor i DSP:n. Detta motsvarar 77% av den teoretiskt uppnåbara prestandan, vilket är jämförbart med förväntningar på effektivteten av mer traditionella x86-baserade system. En detaljerad prestandaanalys visar att detta tillstor del uppnås genom den högoptimerade implementationen av den ingående matris-matris-multiplikationen. Användandet av specialiserade “direct memory access” (DMA) hårdvaruenheter för kopieringen av data mellan det externa DDR3 minnet och det interna kärn-privata och delade arbetsminnet tillät att överlappa dessa operationer med beräkningar. Optimerade mjukvaruimplementationer av dessa beräkningar, delvis utförda i maskinspåk, tillät att utföra matris-multiplikationen med upp till 95% av den teoretiskt nåbara prestandan. I rapporten ges en detaljerad beskrivning av dessa två nyckeltekniker. Energiförbrukningen vid exekvering av det implementerade bänkmärket kunde med hjälp av en för ändamålet anpassad Advantech TMDXEVM6678L evalueringsmodul bestämmas till maximalt 2,92 GF/J. Resultat från verifikationen av bänkmärkesimplementationen och en uppskattning av mätosäkerheten vid de experimentella mätningarna presenteras också.
12

Αρχιτεκτονική συστημάτων για την [sic] διεξαγωγή εργαστηριακών πειραμάτων μέσω Διαδικτύου με έμφαση στην ψηφιακή επεξεργασία σήματος και εικόνας / System architecture for the conduction of internet accessible laboratory experiments focused on digital signal and image processing

Καλαντζόπουλος, Αθανάσιος 06 April 2015 (has links)
Το αντικείμενο της διδακτορικής διατριβής αφορά στην ανάπτυξη μιας ευέλικτης και επεκτάσιμης αρχιτεκτονικής που θα αξιοποιηθεί στον σχεδιασμό συστημάτων για την διεξαγωγή πειραμάτων από απόσταση. Τα συστήματα αυτά αναφέρονται ως RLs (Remote Laboratories) και επιτρέπουν στους χρήστες να χειρίζονται απομακρυσμένα τον διαθέσιμο εργαστηριακό εξοπλισμό με σκοπό την διεξαγωγή πειραμάτων. Στην διεθνή βιβλιογραφία έχουν καταγραφεί σημαντικές ερευνητικές προσπάθειες που σχετίζονται με την ανάπτυξη RLs σε διάφορα γνωστικά αντικείμενα. Όμως ακόμη και σήμερα δεν έχει υιοθετηθεί από την επιστημονική κοινότητα κάποια κοινά αποδεκτή αρχιτεκτονική για την ανάπτυξη RLs. Αρχικά προτείνεται μια αρχιτεκτονική για την ανάπτυξη RLs η οποία ονομάζεται ARIAL (Architecture of Internet Accessible Laboratories) η οποία είναι ανεξάρτητη από το γνωστικό αντικείμενο των υποστηριζόμενων από απόσταση πειραμάτων. Η συγκεκριμένη αρχιτεκτονική είναι επίσης ανεξάρτητη τόσο από το υλικό (hardware) όσο και από το λογισμικό (software) που θα αξιοποιηθεί για την ανάπτυξη ενός RL. Η ARIAL αποτελείται από δύο δομικά στοιχεία, τον MWS (Main Web Server) και το WS (WorkStation). Ο MWS αναλαμβάνει κυρίως την διαχείριση των χρηστών και των διαθέσιμων WSs. Ενώ τα WSs που συνήθως βρίσκονται σε πολλαπλότητα, αναλαμβάνουν αποκλειστικά την διεξαγωγή των υποστηριζόμενων από απόσταση πειραμάτων. Η επικοινωνία μεταξύ του MWS και των WSs επιτυγχάνεται μέσω μιας βάσης δεδομένων που επιτρέπει την πρόσβαση μέσω διαδικτύου. Επομένως, τα WSs μπορούν να εγκατασταθούν σε οποιαδήποτε γεωγραφική τοποθεσία επιτρέποντας την ανάπτυξη ομοσπονδιακών RLs. Όμως το σημαντικότερο χαρακτηριστικό της προτεινόμενης αρχιτεκτονικής το οποίο συμβάλει αποφασιστικά στην βιωσιμότητα ενός RL, είναι η υποστήριξη από απόσταση πειραμάτων που έχουν σχεδιαστεί και υλοποιηθεί από τους χρήστες. Με στόχο την επιβεβαίωση της ARIAL προτείνεται ένα RL στην ψηφιακή επεξεργασία σήματος με DSPs που ονομάζεται R-DSP Lab (Remote Digital Signal Processors Laboratory). Το R-DSP Lab παρέχει στους χρήστες την δυνατότητα είτε να διεξάγουν ένα από τα προκαθορισμένα από απόσταση πειράματα είτε να επιβεβαιώσουν την ορθή λειτουργία μιας DSP εφαρμογής που ανέπτυξαν οι ίδιοι. Το συγκεκριμένο RL επιτρέπει επίσης την ανάπτυξη από απόσταση πειραμάτων από τους χρήστες. Στην περίπτωση αυτή οι χρήστες εκτός από την DSP εφαρμογή που επιθυμούν, θα πρέπει να υλοποιήσουν και το GUI (Graphical User Interface) που αναλαμβάνει τον απομακρυσμένο έλεγχο της παραπάνω DSP εφαρμογής. Κατά την διεξαγωγή οποιουδήποτε από τα παραπάνω απόσταση πειράματα οι χρήστες μέσω μιας κατάλληλα σχεδιασμένης ιστοσελίδας έχουν την δυνατότητα να ελέγχουν απομακρυσμένα τα διαθέσιμα εργαστηριακά όργανα. Στην συνέχεια προτείνεται ένα RL στην ψηφιακή επεξεργασία εικόνας με DSPs που ονομάζεται R-DImPr Lab (Remote Digital Image Processing Laboratory). Το συγκεκριμένο RL επιτρέπει την επιβεβαίωση μιας DSP εφαρμογής που αναπτύχθηκε από τον χρήστη αξιοποιώντας το API (Application Program Interface) του R-DImPr Lab. Η DSP εφαρμογή αναλαμβάνει την ψηφιακή επεξεργασία εικόνων που λαμβάνονται από τον διαθέσιμο αισθητήρα εικόνας. Κατά την διεξαγωγή του από απόσταση πειράματος ο χρήστης μέσω της ιστοσελίδας του RL αφού επιλέξει τις ρυθμίσεις του αισθητήρα εικόνας, έχει την δυνατότητα να παρατηρήσει τόσο στην αρχική όσο και στην επεξεργασμένη εικόνα. Με σκοπό την διεύρυνση των δυνατοτήτων του R-DimPr Lab σχεδιάστηκε και αναπτύχθηκε ένα σύστημα επεξεργασίας εικόνας με DSPs το οποίο παρέχει στους χρήστες την δυνατότητα να διεξάγουν από απόσταση πειράματα ελέγχοντας απομακρυσμένα, τόσο την λειτουργία της αντίστοιχης DSP εφαρμογής όσο και την θέση του αισθητήρα εικόνας. Ο έλεγχος της θέσης του αισθητήρα εικόνας επιτυγχάνεται μέσω ενός μηχανισμού κίνησης που βασίζεται σε δύο βηματικούς κινητήρες και επιτρέπει την περιστροφή του αισθητήρα εικόνας σε δύο άξονες. Επιπρόσθετα, διερευνείται η δυνατότητα ανάπτυξης από απόσταση πειραμάτων στην ψηφιακή επεξεργασία εικόνας με DSPs από τους χρήστες αξιοποιώντας το R-DSP Lab. Τέλος, προτείνεται ένα RL στην αρχιτεκτονική των υπολογιστών που επιτρέπει στους χρήστες να προγραμματίσουν σε assembly μια από τις δύο διαθέσιμες CPUs (Central Processing Units). Κατά την διαδικασία επιβεβαίωσης, αρχικά φορτώνεται στο FPGA (Field Programmable Gate Array) της διαθέσιμης αναπτυξιακής πλατφόρμας η υλοποίηση του συστήματος που βασίζεται στην επιλεγμένη CPU. Στην συνέχεια μέσω του GUI της ιστοσελίδας του προτεινόμενου RL, οι χρήστες έχουν την δυνατότητα να παρατηρήσουν βήμα προς βήμα τις μικρο-λειτουργίες που λαμβάνουν χώρα στην επιλεγμένη CPU κατά την εκτέλεση του προγράμματος. / The subject of this Ph.D. dissertation deals with the development of a flexible and expandable architecture which will be exploited in the design of systems for the conduction of remote experiments. These systems are referred as RLs (Remote Laboratories) and allow the users to handle remotely the available laboratory equipment in order to perform remote experiments. Significant scientific efforts which deal with the development of RLs in several cognitive fields, have been documented in the international literature. However, even today a commonly accepted architecture for the development of RLs has not been adopted by the scientific community. At the beginning, an architecture for the development of RLs which is called ARIAL (ARchitecture of Internet Accessible Laboratories) and is independent of the cognitive field of the supported remote experiments, is proposed. This architecture is also independent of both the hardware and the software which will be utilized for the development of the corresponding RL. The ARIAL consists of two structural elements, the MWS (Main Web Server) and the WS (WorkStation). The MWS undertakes the management of the users and the available WSs. Each one of the multiple WSs is exclusively responsible for the conduction of the supported remote experiments. The communication between the MWS and the WSs is achieved through an internet accessible database. Therefore, the WSs can be installed in any geographic location allowing the development of federal RLs. However, the most important feature of the proposed architecture which contributes decisively to the sustainability of a RL, is the support of remote experiments designed and implemented by the users. In order to confirm the ARIAL, this Ph.D. dissertation also proposes a RL in digital signal processing with DSPs which is called R-DSP Lab (Remote Digital Signal Processors Laboratory). The R-DSP Lab provides the users with the ability either to perform one of the predefined remote experiments or to confirm the operation of a DSP application which is developed by them. In addition, the proposed RL allows the development of remote experiments by the users. In this case, the users implement offline both the desired DSP application and the GUI (Graphical User Interface) which undertakes the remote control of the above DSP application. During the conduction of the above remote experiments, the users are able to remote control the available laboratory instruments through a carefully designed web page. Subsequently, a RL in digital image processing with DSPs which is called R-DImPr Lab (Remote Digital Image Processing Laboratory), is also proposed. This RL allows the verification of a DSP application developed by the user utilizing the API (Application Program Interface) of R-DImPr Lab. The DSP application undertakes the digital process of images which are captured by the available image sensor. During the conduction of the remote experiment, the user through the web page of the proposed RL, selects the parameters of the image sensor and observes both the original and the processed image. In order to expand the features of the R-DImPr Lab, a digital image processing system based on DSPs was designed and developed. This system allows the users to perform remote experiments by controlling remotely both the DSP application and the position of the image sensor. The control of the image sensor’s position is achieved through a motion actuator which is based on two stepper motors and allows the rotation of the image sensor in two axes. In addition, this Ph.D. dissertation explores the possibility of the development of remote experiments in digital image processing with DSPs by the users utilizing the features of the R-DSP Lab. Finally, a RL in computer architecture which allows the users to program in assembly language one of the two available CPUs (Central Processing Units), is proposed. During the verification process, the implementation of the system which is based on the selected CPU, is loaded into the FPGA (Field Programmable Gate Array) of the available development platform. The users through the GUI of the proposed RL’s web page, are able to observe the micro-operations which take place in the selected CPU during the step by step program execution.

Page generated in 0.0878 seconds