• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 31
  • 21
  • 7
  • 4
  • 1
  • Tagged with
  • 62
  • 43
  • 37
  • 28
  • 24
  • 24
  • 24
  • 13
  • 11
  • 9
  • 9
  • 9
  • 9
  • 8
  • 8
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Erstellung einer einheitlichen Taxonomie für die Programmiermodelle der parallelen Programmierung

Nestmann, Markus 02 May 2017 (has links)
Durch die parallele Programmierung wird ermöglicht, dass Programme nebenläufig auf mehreren CPU-Kernen oder CPUs ausgeführt werden können. Um das parallele Programmieren zu erleichtern, wurden diverse Sprachen (z.B. Erlang) und Bibliotheken (z.B. OpenMP) aufbauend auf parallele Programmiermodelle (z.B. Parallel Random Access Machine) entwickelt. Möchte z.B. ein Softwarearchitekt sich in einem Projekt für ein Programmiermodell entscheiden, muss er dabei auf mehrere wichtige Kriterien (z.B. Abhängigkeiten zur Hardware) achten. erleichternd für diese Suche sind Übersichten, die die Programmiermodelle in diesen Kriterien unterscheiden und ordnen. Werden existierenden Übersichten jedoch betrachtet, finden sich Unterschiede in der Klassifizierung, den verwendeten Begriffen und den aufgeführten Programmiermodellen. Diese Arbeit begleicht dieses Defizit, indem zuerst durch ein Systematic Literature Review die existierenden Taxonomien gesammelt und analysiert werden. Darauf aufbauend wird eine einheitliche Taxonomie erstellt. Mit dieser Taxonomie kann eine Übersicht über die parallelen Programmiermodelle erstellt werden. Diese Übersicht wird zusätzlich durch Informationen zu den jeweiligen Abhängigkeiten der Programmiermodelle zu der Hardware-Architektur erweitert werden. Der Softwarearchitekt (oder Projektleiter, Softwareentwickler,...) kann damit eine informierte Entscheidung treffen und ist nicht gezwungen alle Programmiermodelle einzeln zu analysieren.
22

Speculation in Parallel and Distributed Event Processing Systems

Brito, Andrey 10 May 2010 (has links)
Event stream processing (ESP) applications enable the real-time processing of continuous flows of data. Algorithmic trading, network monitoring, and processing data from sensor networks are good examples of applications that traditionally rely upon ESP systems. In addition, technological advances are resulting in an increasing number of devices that are network enabled, producing information that can be automatically collected and processed. This increasing availability of on-line data motivates the development of new and more sophisticated applications that require low-latency processing of large volumes of data. ESP applications are composed of an acyclic graph of operators that is traversed by the data. Inside each operator, the events can be transformed, aggregated, enriched, or filtered out. Some of these operations depend only on the current input events, such operations are called stateless. Other operations, however, depend not only on the current event, but also on a state built during the processing of previous events. Such operations are, therefore, named stateful. As the number of ESP applications grows, there are increasingly strong requirements, which are often difficult to satisfy. In this dissertation, we address two challenges created by the use of stateful operations in a ESP application: (i) stateful operators can be bottlenecks because they are sensitive to the order of events and cannot be trivially parallelized by replication; and (ii), if failures are to be tolerated, the accumulated state of an stateful operator needs to be saved, saving this state traditionally imposes considerable performance costs. Our approach is to evaluate the use of speculation to address these two issues. For handling ordering and parallelization issues in a stateful operator, we propose a speculative approach that both reduces latency when the operator must wait for the correct ordering of the events and improves throughput when the operation in hand is parallelizable. In addition, our approach does not require that user understand concurrent programming or that he or she needs to consider out-of-order execution when writing the operations. For fault-tolerant applications, traditional approaches have imposed prohibitive performance costs due to pessimistic schemes. We extend such approaches, using speculation to mask the cost of fault tolerance.:1 Introduction 1 1.1 Event stream processing systems ......................... 1 1.2 Running example ................................. 3 1.3 Challenges and contributions ........................... 4 1.4 Outline ...................................... 6 2 Background 7 2.1 Event stream processing ............................. 7 2.1.1 State in operators: Windows and synopses ............................ 8 2.1.2 Types of operators ............................ 12 2.1.3 Our prototype system........................... 13 2.2 Software transactional memory.......................... 18 2.2.1 Overview ................................. 18 2.2.2 Memory operations............................ 19 2.3 Fault tolerance in distributed systems ...................................... 23 2.3.1 Failure model and failure detection ...................................... 23 2.3.2 Recovery semantics............................ 24 2.3.3 Active and passive replication ...................... 24 2.4 Summary ..................................... 26 3 Extending event stream processing systems with speculation 27 3.1 Motivation..................................... 27 3.2 Goals ....................................... 28 3.3 Local versus distributed speculation ....................... 29 3.4 Models and assumptions ............................. 29 3.4.1 Operators................................. 30 3.4.2 Events................................... 30 3.4.3 Failures .................................. 31 4 Local speculation 33 4.1 Overview ..................................... 33 4.2 Requirements ................................... 35 4.2.1 Order ................................... 35 4.2.2 Aborts................................... 37 4.2.3 Optimism control ............................. 38 4.2.4 Notifications ............................... 39 4.3 Applications.................................... 40 4.3.1 Out-of-order processing ......................... 40 4.3.2 Optimistic parallelization......................... 42 4.4 Extensions..................................... 44 4.4.1 Avoiding unnecessary aborts ....................... 44 4.4.2 Making aborts unnecessary........................ 45 4.5 Evaluation..................................... 47 4.5.1 Overhead of speculation ......................... 47 4.5.2 Cost of misspeculation .......................... 50 4.5.3 Out-of-order and parallel processing micro benchmarks ........... 53 4.5.4 Behavior with example operators .................... 57 4.6 Summary ..................................... 60 5 Distributed speculation 63 5.1 Overview ..................................... 63 5.2 Requirements ................................... 64 5.2.1 Speculative events ............................ 64 5.2.2 Speculative accesses ........................... 69 5.2.3 Reliable ordered broadcast with optimistic delivery .................. 72 5.3 Applications .................................... 75 5.3.1 Passive replication and rollback recovery ................................ 75 5.3.2 Active replication ............................. 80 5.4 Extensions ..................................... 82 5.4.1 Active replication and software bugs ..................................... 82 5.4.2 Enabling operators to output multiple events ........................ 87 5.5 Evaluation .................................... 87 5.5.1 Passive replication ............................ 88 5.5.2 Active replication ............................. 88 5.6 Summary ..................................... 93 6 Related work 95 6.1 Event stream processing engines ......................... 95 6.2 Parallelization and optimistic computing ................................ 97 6.2.1 Speculation ................................ 97 6.2.2 Optimistic parallelization ......................... 98 6.2.3 Parallelization in event processing .................................... 99 6.2.4 Speculation in event processing ..................... 99 6.3 Fault tolerance .................................. 100 6.3.1 Passive replication and rollback recovery ............................... 100 6.3.2 Active replication ............................ 101 6.3.3 Fault tolerance in event stream processing systems ............. 103 7 Conclusions 105 7.1 Summary of contributions ............................ 105 7.2 Challenges and future work ............................ 106 Appendices Publications 107 Pseudocode for the consensus protocol 109
23

Comparison and End-to-End Performance Analysis of Parallel Filesystems

Kluge, Michael 05 September 2011 (has links)
This thesis presents a contribution to the field of performance analysis for Input/Output (I/O) related problems, focusing on the area of High Performance Computing (HPC). Beside the compute nodes, High Performance Computing systems need a large amount of supporting components that add their individual behavior to the overall performance characteristic of the whole system. Especially file systems in such environments have their own infrastructure. File operations are typically initiated at the compute nodes and proceed through a deep software stack until the file content arrives at the physical medium. There is a handful of shortcomings that characterize the current state of the art for performance analyses in this area. This includes a system wide data collection, a comprehensive analysis approach for all collected data, an adjusted trace event analysis for I/O related problems, and methods to compare current with archived performance data. This thesis proposes to instrument all soft- and hardware layers to enhance the performance analysis for file operations. The additional information can be used to investigate performance characteristics of parallel file systems. To perform I/O analyses on HPC systems, a comprehensive approach is needed to gather related performance events, examine the collected data and, if necessary, to replay relevant parts on different systems. One larger part of this thesis is dedicated to algorithms that reduce the amount of information that are found in trace files to the level that is needed for an I/O analysis. This reduction is based on the assumption that for this type of analysis all I/O events, but only a subset of all synchronization events of a parallel program trace have to be considered. To extract an I/O pattern from an event trace, only these synchronization points are needed that describe dependencies among different I/O requests. Two algorithms are developed to remove negligible events from the event trace. Considering the related work for the analysis of a parallel file systems, the inclusion of counter data from external sources, e.g. the infrastructure of a parallel file system, has been identified as a major milestone towards a holistic analysis approach. This infrastructure contains a large amount of valuable information that are essential to describe performance effects observed in applications. This thesis presents an approach to collect and subsequently process and store the data. Certain ways how to correctly merge the collected values with application traces are discussed. Here, a revised definition of the term "performance counter" is the first step followed by a tree based approach to combine raw values into secondary values. A visualization approach for I/O patterns closes another gap in the analysis process. Replaying I/O related performance events or event patterns can be done by a flexible I/O benchmark. The constraints for the development of such a benchmark are identified as well as the overall architecture for a prototype implementation. Finally, different examples demonstrate the usage of the developed methods and show their potential. All examples are real use cases and are situated on the HRSK research complex and the 100GBit Testbed at TU Dresden. The I/O related parts of a Bioinformatics and a CFD application have been analyzed in depth and enhancements for both are proposed. An instance of a Lustre file system was deployed and tuned on the 100GBit Testbed by the extensive use of external performance counters.
24

Suchbasierte Algorithmen für das Scheduling unabhängiger paralleler Tasks

Dietze, Robert 09 May 2022 (has links)
In parallelen Anwendungen, die auf Grundlage des Programmiermodells der gemischten Parallelität implementiert wurden, lassen sich meist unabhängige Programmteile (Tasks) identifizieren, die sowohl parallel zueinander als auch selbst parallel ausgeführt werden können. Zur Reduzierung der Ausführungszeit solcher Anwendungen auf einem parallelen System wird eine zeitliche und räumliche Zuordnung dieser parallelen Tasks zu den Prozessoren benötigt, welche mithilfe von Schedulingverfahren ermittelt werden kann. Jedoch ist bereits das Scheduling voneinander abhängiger Single-Prozessor-Tasks auf ein paralleles System mit zwei Prozessoren NP-schwer, weshalb zur Lösung von Schedulingproblemen häufig List-Scheduling-Heuristiken verwendet werden. Das Scheduling unabhängiger paralleler Tasks ist aufgrund der vielen zusätzlichen Zuordnungsmöglichkeiten deutlich komplexer und erfordert daher dedizierte Lösungsverfahren. Einen vielversprechenden Ansatz zur Lösung komplexer Schedulingprobleme bilden suchbasierte Verfahren, die lokale oder globale Suchstrategien zur Lösungsfindung nutzen. In der vorliegenden Arbeit wird untersucht, inwieweit sich derartige Verfahren für das Scheduling unabhängiger paralleler Tasks auf heterogene Systeme bestehend aus Multicore- Rechnern mit unterschiedlichen Eigenschaften eignen. Zu diesem Zweck werden vier suchbasierte Schedulingverfahren entwickelt und untersucht. Konkret werden zwei modifizierende und zwei inkrementelle Verfahren vorgestellt, die von Suchverfahren wie der A*-Suche und Metaheuristiken wie der Tabu-Suche und des Simulated Annealing inspiriert sind. Zusätzlich wird eine Kostenmodellierung in Form von parametrisierten Laufzeitformeln präsentiert, mit der die Ausführungszeiten der parallelen Tasks auf heterogenen Systemen modelliert werden können. Die Verfahren werden in Laufzeitmessungen auf heterogenen Rechnerplattformen untereinander und mit existierenden List-Scheduling-Heuristiken verglichen. Als Anwendungen für die Messungen werden sowohl Programme der SPLASH-3-Benchmark-Suite als auch eine praxisnahe Simulationsanwendung zur Bauteilbelastung untersucht. Die Ergebnisse zeigen, dass alle vier Verfahren im Vergleich zu existierenden List-Scheduling-Heuristiken eine signifikante Reduktion der Ausführungszeit erreichen können.
25

Prozessorientierte optimistisch-parallele Simulation

Kunert, Andreas 20 January 2011 (has links)
Vor allem bei der Betrachtung großer und komplexer Szenarien ist eine Kombination der Vorteile der sequentiellen und parallelen Simulationswelten wünschenswert. Derartige Szenarien lassen sich meist nur bei einer adäquaten, strukturäquivalenten Modellierung, wie in der sequentiellen Simulationswelt üblich, beherrschen. Es sind aber auch gleichzeitig genau diese Simulationsszenarien, die auch am ehesten nach einer Beschleunigung der Simulationsausführung, z.B. durch eine Parallelisierung, verlangen. Die vorliegende Arbeit beschreibt die Konzeption und Implementation einer optimistisch-parallelen Simulationsbibliothek in Java. Diese vereint die Vorzüge optimistisch-paralleler Simulation (automatische Ausnutzung modellinhärenter Parallelität zur Simulationsbeschleunigung) mit der des prozessorientierten Paradigmas (modellabhängig strukturäquivalente und intuitive Modellbeschreibungen). Eine Implementation des prozessorientierten Paradigmas in einer parallelen Simulation ist allerdings nicht unproblematisch. Dies gilt vor allem im Spezialfall der optimistisch-parallelen Simulation, die sich dadurch auszeichnet, dass Simulationsmodelle während eines Simulationslaufes in ungültige Zustände geraten können, was jeweils durch eine Rückkehr des Simulationsmodells in einen früheren, korrekten Zustand korrigiert wird. Ein weiteres Entwicklungsziel besteht darin, im Gegensatz zu den meisten existierenden PDES-Implementationen die interne Arbeitsweise des optimistisch-parallelen Simulationskerns so gut wie möglich zu verbergen. Stattdessen gleichen die vom Simulationskern angebotenen Schnittstellen weitestgehend denen von sequentiellen Simulationskernen. Dadurch wird die Erstellung eines passenden Simulationsmodells im Vergleich zu anderen parallelen Simulationsimplementationen deutlich erleichtert. Auch der Mehraufwand gegenüber der Erstellung von Simulationsmodellen für rein sequentielle Simulationskerne ist relativ gering. / A combination of the advantages of the sequential, as well as the parallel simulation approach is desirable, especially in the case of large and complex simulation scenarios. These are only manageable if a corresponding structurally equivalent simulation model is employed. Also, the very same models will profit most from a speed-up by parallelization. Unfortunately, the implementation of a process-oriented view in a parallel fashion is not a trivial task. Parallel simulation implementations generally suffer from additional computational cost that can offset the parallel speed-up and even lead to a diminished parallel performance, which is even more likely to happen when using process-oriented simulation models. This is especially the case in optimistic-parallel simulations. These are characterized by the ability of the model to get into invalid states which is costly being corrected at runtime by returning the model to valid former states preliminarily saved. The aim of this thesis is the design and implementation of a simulation library in Java. It combines the advantages of optimistic-parallel simulation (i.e. use of parallelism for speed-up) and the process-oriented modeling (creation of an intuitive and structurally equivalent model). Another central objective of the development is to hide the internals of the optimistic-parallel simulation kernel from the modeler, in contrast to most existing PDES implementations. Instead, the implementation is encapsulated by interfaces, which resemble those of sequential simulation kernels, reducing the additional effort needed to create a suited model. A noteworthy aspect of the implementation is the reuse of a web application framework for retroactive modification of the Java bytecode, generated by the Java compiler. This bytecode rewriting solves in an elegant way the task of realizing coroutines, which are the base for the implementation of processes as needed by process-oriented simulation models.
26

Resolution de systemes lineaires de grande taille avec plusieurs seconds membres

Langou, Julien 10 June 2003 (has links) (PDF)
Le point de départ de cette thèse est un problème posé par le groupe électromagnétisme de EADS-CCR : comment résoudre plusieurs systèmes linéaires avec la même matrice mais différents seconds membres ? Pour l'application voulue, les matrices sont complexes, denses et de grande taille. Un problème standard comporte environ quelques millions d'inconnues. Comme de telles matrices ne peuvent être ni calculées, ni stockées dans un processus industriel, l'utilisation d'un produit matrice-vecteur approché est la seule alternative. En l'occurrence, le produit matrice-vecteur est effectué en utilisant la méthode multipôle rapide. Dans ce contexte, le but de cette thèse est d'adapter les méthodes itératives de type Krylov de telle sorte qu'elles traitent efficacement les nombreux seconds membres. Des travaux préliminaires avec un seul second membre ont montré que la méthode GMRES est particulièrement efficace et robuste pour cette application. En conséquence dans cette thèse nous abordons uniquement les variantes de GMRES. Les schémas d'orthogonalisation que nous avons implantés dans GMRES sont des variantes de l'algorithme de Gram-Schmidt. <br /><br />Dans une première partie, nous nous intéressons à l'influence des erreurs d'arrondi dans les algorithmes de Gram-Schmidt. Nos résultats répondent à des questions vieilles de vingt-cinq ans. Nous donnons l'explication théorique de ce qui était communément observé et accepté : <br /><br /> - l'algorithme de Gram-Schmidt modifié génère un ensemble de vecteurs bien conditionné ;<br /> - l'algorithme de Gram-Schmidt itéré deux fois fabrique un ensemble de vecteurs orthonormé.<br /><br />Ces deux propositions reposent sur l'hypothèse que la matrice de départ est "numériquement non singulière" en un sens qui est clairement défini. D'autre part, quand l'algorithme de Gram-Schmidt est itéré avec un critère de réorthogonalisation, nous proposons un nouveau critère. Nous montrons que l'algorithme obtenu est robuste alors que le critère communément utilisé est mis en défaut dans certains cas. Finalement, nous généralisons des résultats standards sur les normes en terme de valeurs singulières pour l'algorithme de Gram-Schmidt modifié. Ceci nous permet de dériver un schéma de réorthogonalisation a posteriori utilisant une matrice de rang faible. Ces résultats ont plusieurs applications directes. Nous en donnons des exemples avec les méthodes de Krylov pour résoudre des problèmes linéaires avec plusieurs seconds membres.<br /><br />Dans la deuxième partie, nous avons implémenté des variantes de la méthode GMRES pour les arithmétiques réelle et complexe, simple et double précisions. Cette implémentation convient pour des ordinateurs classiques, à mémoire partagée ou distribuée. Le code en résultant satisfait aux critères de qualité des librairies standards et son implémentation est largement détaillée. Pour des besoins de simplicité, flexibilité et efficacité, les solveurs utilisent un mécanisme de reverse communication pour les produits matrice-vecteur, les étapes de préconditionnement et les produits scalaires. Différents schémas d'orthogonalisation sont implémentés pour réduire le coût de calcul des produits scalaires, un point particulièrement important pour l'efficacité des méthodes de Krylov dans un environnement parallèle distribué. Le critère d'arrêt implémenté est basé sur l'erreur inverse normalisée. Les variantes disponibles sont GMRES-DR, seed-GMRES et block-GMRES. Ces codes s'ajoutent aux variantes déjà existantes (GMRES, flexible GMRES et SQMR). Un produit matrice-vecteur avec une décomposition LU est utilisé dans GMRES-DR de telle sorte que le stockage des approximations des vecteurs propres se fasse sur les premiers vecteurs de l'espace de Krylov. Un restart implicite et une étape de préconditionnement implicite ont été implémentés dans seed-GMRES. Nous supprimons ainsi un produit matrice-vecteur et une étape de préconditionnement par second membre et par cycle de GMRES. La version de block-GMRES permet à l'utilisateur de sélectionner différents modes de déflation. Pour terminer, des résultats reliant la norme du résidu de GMRES à la plus petite valeur singulière de l'espace construit par la méthode de Krylov ont été généralisés à la méthode block-GMRES.<br /><br />La troisième partie est consacrée à l'amélioration des techniques standards pour la résolution des systèmes linéaires dans le cadre des problèmes électromagnétiques. Après une présentation approfondie du code, nous étudions l'influence de la non-symétrie sur la convergence de l'algorithme SQMR. Nous étudions aussi le comportement de GMRES-DR sur nos problèmes. Ceci correspond à deux méthodes avec un seul second membre, le reste de cette partie concerne les cas comportant plusieurs seconds membres. Tout d'abord, nous examinons en détail les techniques qui permettent d'adapter les méthodes utilisées pour un second membre unique aux cas comportant plusieurs seconds membres. Par exemple, on peut améliorer la qualité du préconditionneur, avoir une stratégie de solution initiale, grouper les opérations de plusieurs résolutions ou encore paralléliser plusieurs résolutions. Dans le contexte du calcul de surface équivalente radar monostatique, nous avons montré que l'espace des seconds membres du problème continu était de dimension finie. La dimension donnée par notre théorie est proche de celle que nous observons en pratique. Cette propriété nous permet de réduire considérablement le nombre de systèmes linéaires à résoudre. Dans ce contexte, une version de la méthode block-GMRES est donnée. Ensuite, nous abordons certains problèmes spécifiques des méthodes seed-GMRES et block-GMRES pour lesquels nous proposons des solutions. Pour finir, des résultats plus prospectifs sont donnés. Plusieurs stratégies pour extraire et ajouter de l'information spectrale d'un cycle de GMRES à l'autre sont proposées et comparées. Puis nous utilisons le fait que la méthode multipôle rapide est un produit matrice-vecteur inexact dont la précision est réglable. Moins précis est le produit matrice-vecteur, plus rapide il est. Nous montrons comment tirer partie de cette propriété en utilisant un schéma relâché (méthode de Krylov inexacte) ou des itérations emboîtées (flexible GMRES). Enfin, le critère d'arrêt basé sur l'erreur inverse normalisée dans le cadre du calcul d'une surface équivalente radar est remis en question.
27

Environnement d'exécution parallèle : conception et architecture

Maciel Da Costa, Celso 21 October 1993 (has links) (PDF)
L'objectif de cette these est l'etude d'un environnement d'execution pour machines paralleles sans memoire commune. Elle comprend la definition d'un modele de programme parallele, base sur l'echange de message offrant une forme restreinte de memoire partagee. La communication est indirecte, via des portes; les processus utilisent les barrieres pour la synchronisation. Les entites du systeme, processus, portes et barrieres, sont creees dynamiquement, et placees sur un processeur quelconque du reseau de processeurs de facon explicite. Nous proposons une implantation de ce modele comme la mise en oeuvre systematique d'une architecture client/ serveur. Cette implantation a ete effectuee sur une machine Supernode. La base est un Micro Noyau Parallele, ou le composant principal est un mecanisme d'appel de procedure a distance minimal.
28

Konservierte Struktur bei genetischer Mosaizität : die Tailspike Proteine dreier Phagen der Familie Podviridae / Tailspike proteins of three Podoviridae : genetic mosaics with conserved hreedimensional structure

Barbirz, Stefanie January 2005 (has links)
Die Tailspike Proteine (TSP) der Bakteriophagen P22, Sf6 und HK620 dienen der Erkennung von Kohlenhydratstrukturen auf ihren gram-negativen Wirtsbakterien und zeigen, von den ersten 110 Aminosäuren des N-Terminus abgesehen, keine Sequenzübereinstimmung. Mit Röntgenkristallstrukturanalyse konnte gezeigt werden, dass HK620TSP und Sf6TSP ebenfalls zu einer parallelen, rechtsgängigen beta-Helix falten, wie dies schon für P22TSP bekannt war. Die Kohlenhydratbindestelle ist bei Sf6TSP im Vergleich zu P22TSP zwischen die Untereinheiten verschoben. / The bacteriophages P22, Sf6 and HK620 need their tailspike proteins (TSP) for recognition of surface carbohydrates on their gram-negative host bacteria. Sequence identity is completely lacking in their C-terminal 500 to 600 amino acids. The three TSP have the same fold, an oligomeric parallel beta-helix, as shown by crystal structure analyses of HK620TSP and Sf6TSP. Compared with P22TSP, the carbohydrate binding site of Sf6TSP is located at the interface between two monomers and not on a single monomer.
29

Die Strukturbildung der beta-Helix in der Pektatlyase Pel-15 / The structure formation of the beta-helix in the pectate lyase Pel-15

Fiedler, Christian January 2010 (has links)
Pektatlyase (Pel-15) aus dem alkalophilen Bodenbakterium Bacillus spec. KSM-P15 ist mit 197 Aminosäuren eines der kleinsten, bekannten β-3-Solenoidproteine. Sie spaltet Polygalakturonsäurederivate in einem Ca2+-abhängigen β-Eliminierungsprozess. Wie bei allen Proteinen dieser Enzymfamilie ist auch die Polypeptidkette von Pel-15 zu einer einsträngigen, rechtsgängigen, parallelen β-Helix aufgewunden. In diesem Strukturmotiv enthält jede Windung drei β-Stränge, die jeweils durch flexible Schleifenbereiche miteinander verbunden sind. Insgesamt acht Windungen stapeln sich in Pel-15 übereinander und bilden entlang der Helixachse flächige, parallele β-Faltblätter aus. Im Bereich dieser β-Faltblätter existiert ein ausgedehntes Netzwerk von Wasserstoffbrückenbindungen, durch das der hydrophobe Kern, der sich im Inneren der β-Helix befindet, vom umgebenden Lösungsmittel abgeschirmt wird. Besondere Abschlussstrukturen an beiden Enden der β-Helix, wie sie typischerweise bei anderen Ver-tretern dieser Strukturklasse ausgeprägt werden, sind in Pel-15 nicht zu beobachten. Stattdessen sind die terminalen Bereiche der β-Helix über Salzbrücken und hydrophobe Seitenkettenkontakte stabilisiert. In der vorliegenden Dissertation wurde die Pektatlyase Pel-15 hinsichtlich ihres Faltungsgleichgewichtes, ihrer enzymatischen Aktivität und der Kinetik ihrer Strukturbildung charakterisiert. In eine evolutionär konservierte Helixwindung wurden destabilisierende Mutationen eingeführt, und deren Auswirkungen mittels spektroskopischer Methoden analysiert. Die Ergebnisse zeigen, dass Pel-15 in Gegenwart des Denaturierungsmittels Guanidiniumhydrochlorid einen hyperfluoreszenten Gleichgewichtsustand (HF) populiert, der nach Messungen von Faltungs- und Entfaltungskinetiken ein konformationelles Ensemble aus den Zuständen HFslow und HFfast darstellt. Diese HF-Zustände sind durch eine hohe Aktivierungsbarriere voneinander getrennt. In Rückfaltungsexperimenten populieren nur etwa 80 % der faltenden Moleküle den Zwischenzustand HFslow, der mit einer Zeitkonstante von ca. 100 s zu HFfast weiterreagiert. Die Denaturierungsmittelabhängigkeit dieser Reaktion ist sehr gering, was eine trans-/cis-Prolylisomerisierung als geschwindigkeitslimitierenden Schritt nahelegt. Die Existenz eines cis-Peptides in der nativen Struktur macht es erforderlich, den denaturierten Zustand als ein Ensemble kinetisch separierter Konformationen, kurz: DSE, zu betrachten, das durch die Spezies Ufast und Uslow populiert wird. Nach dem in dieser Arbeit aufgestellten „Minimalmodell der Pel-15 Faltung“ stehen die HF-Spezies (HFslow, HFfast) mit den Konformationen des DSE in einem thermodynamischen Kreisprozess. Das Modell positioniert HFfast und die native Konformation N auf die „native Seite“ der Aktivierungsbarriere und trägt damit der Tatsache Rechnung, dass die Gleichgewichtseinstellung zwischen diesen Spezies zu schnell ist, um mit manuellen Techniken erfasst zu werden. Die hochaffine Bindung von Ca2+ (Kd = 10 μM) verschiebt sich das Faltungsgleichgewicht bereits in Gegenwart von 1 mM CaCl2 soweit auf die Seite des nativen Zustandes, das HFfast nicht länger nachweisbar ist. Entgegen anfänglicher Vermutungen kommt einer lokalen, evolutionär konservierten Disulfidbrücke im Zentrum der β-Helix eine wichtige Stabilisierungsfunktion zu. Die Disulfidbrücke befindet sich in einem kurzen Schleifenbereich der β-Helix nahe dem aktiven Zentrum. Obwohl ihr Austausch gegen die Reste Val und Ala die freie Stabilisierungsenthalpie des Proteins um ca. 10 kJ/mol reduziert, lässt die Struktur im Bereich der Mutationsstelle keine gravierende Veränderung erkennen. Auch die katalytisch relevante Ca2+-Bindungsaffinität bleibt unbeeinflusst; dennoch zeigen Enzymaktivitätstests für VA-Mutanten eine Reduktion der enzymatischen Aktivität um fast 50 % an. Die evolutionär konservierte Helixwindung im Allgemeinen und die in ihr enthaltene Disulfidbrücke im Besonderen müssen nach den vorliegenden Ergebnissen also eine zentrale Funktion sowohl für die Struktur des katalytischen Zentrums als auch für die Strukturbildung der β-Helix während der Faltungsreaktion besitzen. Die Ergebnisse dieser Arbeit finden in mehreren Punkten Anklang an Faltungseigenschaften, die für andere β -Helixproteine beschrieben wurden. Vor allem aber prädestinieren sie Pel-15 als ein neues, β-helikales Modellprotein. Aufgrund seiner einfachen Topologie, seiner niedrigen Windungszahl und seiner hohen thermodynamischen Stabilität ist Pel-15 sehr gut geeignet, die Determinanten von Stabilität und Strukturbildung des parallelen β-Helix-Motivs in einer Auflösung zu studieren, die aufgrund der Komplexität bestehender β-helikaler Modellsysteme bislang nicht zur Verfügung stand. / Pectate lyase Pel-15 was isolated from alcaliphlic Bacillus spec. strain KSM-P15. Like all pectate lyases Pel-15 binds and subsequently cleaves polygalacturonic acid, the main pectic compound in plant cell walls and middle lamellae, in a Ca2+ dependent beta-elimination reaction. With 197 amino acids and a molecular mass of only 21 kDa the protein is one of the smallest right-handed parallel beta-helical proteins known today. Polypeptide chains that are classified into this structural family adopt super-helical folds in which each “solenoid stack” consists of three beta-structured regions that are connected by flexible turn segments. Along its longitudinal axis the right-handed parallel beta-helix thus comprises three elongated parallel beta-sheets that are stabilized by an extensive network of hydrogen bonds wrapping around the densely packed hydrophobic core. Together with the shield-like arrangement of hydrogen bonds this hydrophobic core is considered as the main contributor to an exceptionally high stability that is a common feature of all beta-helical proteins. In contrast to most right-handed parallel beta-helices, Pel-15 is devoid of any terminal capping domains and laterally associated secondary structure. Therefore, this protein is considered to be a promising model protein of a pure beta-helix which will help to understand the determinants of both parallel beta-sheet formation and stability. In the dissertation at hand optical spectroscopic methods were used to assess the enzymatic activity, the folding/unfolding equilibrium and the kinetic mechanism of structure formation in neutral buffered solutions. Results indicate that Pel-15 populates a hyper-fluorescent equilibrium intermediate (HF) that is effectively populated in presence of the denaturing agent guanidinium hydrochloride (GdmCl). According to kinetic folding and unfolding experiments HF is not only an essential on-pathway intermediate but has to be considered as a conformational ensemble in which several hyperfluorescent states are in thermodynamic equilibrium with each other. According to their existence in kinetic folding trajectories these different HF-species were termed HFslow and HFfast. The activation energy between both states is remarkably high leading to a time constant of about 100 seconds for the reaction HFslow ⇆ HFfast. Since native Pel-15 contains an energetically disfavoured cis-prolyl peptide between A59 and P60 it is proposed that HFslow and HFfast differ in their prolyl peptide conformations. Two main results emerge from this dissertation. First, an extensive study of the Pel-15 folding- and unfolding behaviour facilitated the proposal of a “minimal folding model”. According to this model the HF-states and the according denatured species Uslow and Ufast are aligned into a thermodynamic circle. This implies that unfolded polypeptide chains reach the HF-ensemble via parallel folding trajectories. Since the native conformation N together with HFfast are on the same side of the activation barrier, it is the reaction HFslow ⇆ HFfast that is the rate limiting step in the folding reaction of Pel-15. Second, the importance of an evolutionarily conserved disulfide bond in the central region of Pel-15 was tested by site directed mutagenesis and subsequent spectroscopic characterization. The exchange of the disulfide against a hydrophobic pair of alanine and valine decreases the folding free energy by about 10 kJ/mol. Although this value is unexpectedly high, structural perturbations around both mutational positions are small as was deduced from X-Ray crystallography. Interestingly, the stability decrease is accompanied by a major loss of enzymatic activity while the Ca2+ binding affinity is not significantly affected. It is therefore concluded that the allosterically relevant disulfide bond stabilizes long-range interactions that stabilize several adjacent solenoid turns near the N-terminus of the protein. Indeed, planar stacking interactions are perturbed and flexibility of N-terminal loops is increased once the disulfide bond is removed. This dissertation establishes Pel-15 as a novel beta-helical model protein and – even more important – smoothes the way for a generally accepted perspective on the formation and stability of parallel beta-sheet proteins.
30

Extraktion und Identifikation von Entitäten in Textdaten im Umfeld der Enterprise Search / Extraction and identification of entities in text data in the field of enterprise search

Brauer, Falk January 2010 (has links)
Die automatische Informationsextraktion (IE) aus unstrukturierten Texten ermöglicht völlig neue Wege, auf relevante Informationen zuzugreifen und deren Inhalte zu analysieren, die weit über bisherige Verfahren zur Stichwort-basierten Dokumentsuche hinausgehen. Die Entwicklung von Programmen zur Extraktion von maschinenlesbaren Daten aus Texten erfordert jedoch nach wie vor die Entwicklung von domänenspezifischen Extraktionsprogrammen. Insbesondere im Bereich der Enterprise Search (der Informationssuche im Unternehmensumfeld), in dem eine große Menge von heterogenen Dokumenttypen existiert, ist es oft notwendig ad-hoc Programm-module zur Extraktion von geschäftsrelevanten Entitäten zu entwickeln, die mit generischen Modulen in monolithischen IE-Systemen kombiniert werden. Dieser Umstand ist insbesondere kritisch, da potentiell für jeden einzelnen Anwendungsfall ein von Grund auf neues IE-System entwickelt werden muss. Die vorliegende Dissertation untersucht die effiziente Entwicklung und Ausführung von IE-Systemen im Kontext der Enterprise Search und effektive Methoden zur Ausnutzung bekannter strukturierter Daten im Unternehmenskontext für die Extraktion und Identifikation von geschäftsrelevanten Entitäten in Doku-menten. Grundlage der Arbeit ist eine neuartige Plattform zur Komposition von IE-Systemen auf Basis der Beschreibung des Datenflusses zwischen generischen und anwendungsspezifischen IE-Modulen. Die Plattform unterstützt insbesondere die Entwicklung und Wiederverwendung von generischen IE-Modulen und zeichnet sich durch eine höhere Flexibilität und Ausdrucksmächtigkeit im Vergleich zu vorherigen Methoden aus. Ein in der Dissertation entwickeltes Verfahren zur Dokumentverarbeitung interpretiert den Daten-austausch zwischen IE-Modulen als Datenströme und ermöglicht damit eine weitgehende Parallelisierung von einzelnen Modulen. Die autonome Ausführung der Module führt zu einer wesentlichen Beschleu-nigung der Verarbeitung von Einzeldokumenten und verbesserten Antwortzeiten, z. B. für Extraktions-dienste. Bisherige Ansätze untersuchen lediglich die Steigerung des durchschnittlichen Dokumenten-durchsatzes durch verteilte Ausführung von Instanzen eines IE-Systems. Die Informationsextraktion im Kontext der Enterprise Search unterscheidet sich z. B. von der Extraktion aus dem World Wide Web dadurch, dass in der Regel strukturierte Referenzdaten z. B. in Form von Unternehmensdatenbanken oder Terminologien zur Verfügung stehen, die oft auch die Beziehungen von Entitäten beschreiben. Entitäten im Unternehmensumfeld haben weiterhin bestimmte Charakteristiken: Eine Klasse von relevanten Entitäten folgt bestimmten Bildungsvorschriften, die nicht immer bekannt sind, auf die aber mit Hilfe von bekannten Beispielentitäten geschlossen werden kann, so dass unbekannte Entitäten extrahiert werden können. Die Bezeichner der anderen Klasse von Entitäten haben eher umschreibenden Charakter. Die korrespondierenden Umschreibungen in Texten können variieren, wodurch eine Identifikation derartiger Entitäten oft erschwert wird. Zur effizienteren Entwicklung von IE-Systemen wird in der Dissertation ein Verfahren untersucht, das alleine anhand von Beispielentitäten effektive Reguläre Ausdrücke zur Extraktion von unbekannten Entitäten erlernt und damit den manuellen Aufwand in derartigen Anwendungsfällen minimiert. Verschiedene Generalisierungs- und Spezialisierungsheuristiken erkennen Muster auf verschiedenen Abstraktionsebenen und schaffen dadurch einen Ausgleich zwischen Genauigkeit und Vollständigkeit bei der Extraktion. Bekannte Regellernverfahren im Bereich der Informationsextraktion unterstützen die beschriebenen Problemstellungen nicht, sondern benötigen einen (annotierten) Dokumentenkorpus. Eine Methode zur Identifikation von Entitäten, die durch Graph-strukturierte Referenzdaten vordefiniert sind, wird als dritter Schwerpunkt untersucht. Es werden Verfahren konzipiert, welche über einen exakten Zeichenkettenvergleich zwischen Text und Referenzdatensatz hinausgehen und Teilübereinstimmungen und Beziehungen zwischen Entitäten zur Identifikation und Disambiguierung heranziehen. Das in der Arbeit vorgestellte Verfahren ist bisherigen Ansätzen hinsichtlich der Genauigkeit und Vollständigkeit bei der Identifikation überlegen. / The automatic information extraction (IE) from unstructured texts enables new ways to access relevant information and analyze text contents, which goes beyond existing technologies for keyword-based search in document collections. However, the development of systems for extracting machine-readable data from text still requires the implementation of domain-specific extraction programs. In particular in the field of enterprise search (the retrieval of information in the enterprise settings), in which a large amount of heterogeneous document types exists, it is often necessary to develop ad-hoc program-modules and to combine them with generic program components to extract by business relevant entities. This is particularly critical, as potentially for each individual application a new IE system must be developed from scratch. In this work we examine efficient methods to develop and execute IE systems in the context of enterprise search and effective algorithms to exploit pre-existing structured data in the business context for the extraction and identification of business entities in documents. The basis of this work is a novel platform for composition of IE systems through the description of the data flow between generic and application-specific IE modules. The platform supports in particular the development and reuse of generic IE modules and is characterized by a higher flexibility as compared to previous methods. A technique developed in this work interprets the document processing as data stream between IE modules and thus enables an extensive parallelization of individual modules. The autonomous execution of each module allows for a significant runtime improvement for individual documents and thus improves response times, e.g. for extraction services. Previous parallelization approaches focused only on an improved throughput for large document collections, e.g., by leveraging distributed instances of an IE system. Information extraction in the context of enterprise search differs for instance from the extraction from the World Wide Web by the fact that usually a variety of structured reference data (corporate databases or terminologies) is available, which often describes the relationships among entities. Furthermore, entity names in a business environment usually follow special characteristics: On the one hand relevant entities such as product identifiers follow certain patterns that are not always known beforehand, but can be inferred using known sample entities, so that unknown entities can be extracted. On the other hand many designators have a more descriptive character (concatenation of descriptive words). The respective references in texts might differ due to the diversity of potential descriptions, often making the identification of such entities difficult. To address IE applications in the presence of available structured data, we study in this work the inference of effective regular expressions from given sample entities. Various generalization and specialization heuristics are used to identify patterns at different syntactic abstraction levels and thus generate regular expressions which promise both high recall and precision. Compared to previous rule learning techniques in the field of information extraction, our technique does not require any annotated document corpus. A method for the identification of entities that are predefined by graph structured reference data is examined as a third contribution. An algorithm is presented which goes beyond an exact string comparison between text and reference data set. It allows for an effective identification and disambiguation of potentially discovered entities by exploitation of approximate matching strategies. The method leverages further relationships among entities for identification and disambiguation. The method presented in this work is superior to previous approaches with regard to precision and recall.

Page generated in 0.098 seconds