Spelling suggestions: "subject:"statistische tests"" "subject:"statistische pests""
1 |
Evaluierung der Qualität verschiedener klassischer und quantenmechanischer ZufallszahlquellenDöring, Ronny 24 August 2022 (has links)
Zufallszahlen werden für die unterschiedlichsten Anwendungsfälle benötigt. Einen besonderen Stellenwert hat dabei die Kryptographie.
Im Rahmen dieser Arbeit werden verschiedene klassische und quantenmechanische Zufallszahlengeneratoren auf ihre Eignung zur Verwendung für kryptographische Zwecke geprüft. Dazu werden zunächst einige notwendige Grundlagen gelegt, um verschiedene Verfahren für die Evaluierung der generierten Zufallszahlen zu beleuchten. Einen besonderen Stellenwert nimmt dabei die Qualität der Zufallszahlen ein. Wie diese gemessen werden kann und wodurch sich qualitativ hochwertige Zufallszahlen auszeichnen, sind Fragen, die im Rahmen dieser Arbeit beantwortet werden.
Zur Beurteilung der Qualität der Zufallszahlen werden eine Reihe statistischer Tests herangezogen, die auf eine Auswahl von klassischen und quantenmechanischen Zufallszahlengeneratoren angewendet werden. Die Ergebnisse entsprechen dabei teilweise nicht den Erwartungen.
Berücksichtigt man nur die Qualität der erzeugten Zufallszahlen, so stellt sich heraus, dass einige klassische Generatoren mit den quantenmechanischen Alternativen mithalten können. Allerdings werden auch einige Limitationen bei der Anwendung der Tests sichtbar.:1. Einführung
1.1. Motivation
1.2. Zielstellung
1.3. Vorgehensweise
2. Theoretische Grundlagen
2.1. Zufall, Zufallszahlen und Zufallszahlengeneratoren im mathematischen Kontext
2.2. Exkurs in die Quantenmechanik
2.3. Stand der Technik
3. Praktische Verwendung von Zufallszahlen
3.1. Verwendung von Zufallszahlen für Kryptographie
3.2. Qualität von Zufallszahlen im kryptographischen Kontext
3.3. Praktische Umsetzung und Einordnung von Zufallszahlengeneratoren
4. Ausgewählte Implementierungen von Zufallszahlengeneratoren
4.1. Klassische Zufallszahlengeneratoren
4.1.1. Linearer Kongruenzgenerator
4.1.2. Linux /dev/(u)random
4.2. Quantenmechanische Zufallszahlengeneratoren
4.2.1. ID Quantique Quantis
4.2.2. QuintessenceLabs qStream
4.2.3. IBM Quantencomputer
5. Statistisches Testen von Zufallszahlengeneratoren
5.1. Allgemeine Tests
5.2. Tests nach NIST SP 800-22 - Rev. 1a
5.3. Dieharder-Tests
6. Anwendung statistischer Tests auf ausgewählte Zufallszahlengeneratoren
6.1. Erwartungen
6.2. Linearer Kongruenzgenerator
6.3. Linux /dev/urandom
6.4. ID Quantique Quantis
6.5. QuintessenceLabs qStream
6.6. IBM Quantencomputer
7. Evaluation
8. Fazit
8.1. Zusammenfassung
8.2. Kritische Würdigung
8.3. Ausblick
|
2 |
Statistische Tests bei UnschärfeWünsche, Andreas 16 December 2009 (has links) (PDF)
Statistische Tests beim Vorliegen unscharfer Daten (Fuzzy-Daten) und zum Testen unscharfer Hypothesen werden untersucht. Tests für den (unscharfen) Erwartungswert einer unscharfen Zufallsvariable (Fuzzy-Zufallsvariable) werden konstruiert. Die Gütefunktionen werden zum Vergleich der verschiedenen Tests bestimmt. Die angegebenen Tests sind dabei zum Teil optimal. Es wird aufgezeigt, wann bei Tests für scharfe Daten deren Verunschärfung nicht mit in die Testentscheidung einbezogen werden muss und wann die Einbeziehung zu einer Verbesserung der Testentscheidung führt. Weiter wird gezeigt, wie und wann die Erweiterung der Teststatistik, des P-Wertes und des zum Test gehörigen Konfidenzintervalles zur gleichen unscharfen Testfunktion führen. Beim Testen unscharfer Hypothesen werden klassische Begriffe wie maximale Wahrscheinlichkeit für den Fehler 1.Art zum einen scharf zum anderen unscharf verallgemeinert. Für beide Fälle ist, mit diesen verallgemeinerten Begriffen und unter gewissen Voraussetzungen, ein optimaler Test bestimmbar.
|
3 |
Statistische Tests bei UnschärfeWünsche, Andreas 07 June 2005 (has links)
Statistische Tests beim Vorliegen unscharfer Daten (Fuzzy-Daten) und zum Testen unscharfer Hypothesen werden untersucht. Tests für den (unscharfen) Erwartungswert einer unscharfen Zufallsvariable (Fuzzy-Zufallsvariable) werden konstruiert. Die Gütefunktionen werden zum Vergleich der verschiedenen Tests bestimmt. Die angegebenen Tests sind dabei zum Teil optimal. Es wird aufgezeigt, wann bei Tests für scharfe Daten deren Verunschärfung nicht mit in die Testentscheidung einbezogen werden muss und wann die Einbeziehung zu einer Verbesserung der Testentscheidung führt. Weiter wird gezeigt, wie und wann die Erweiterung der Teststatistik, des P-Wertes und des zum Test gehörigen Konfidenzintervalles zur gleichen unscharfen Testfunktion führen. Beim Testen unscharfer Hypothesen werden klassische Begriffe wie maximale Wahrscheinlichkeit für den Fehler 1.Art zum einen scharf zum anderen unscharf verallgemeinert. Für beide Fälle ist, mit diesen verallgemeinerten Begriffen und unter gewissen Voraussetzungen, ein optimaler Test bestimmbar.
|
4 |
Active evaluation of predictive modelsSawade, Christoph January 2012 (has links)
The field of machine learning studies algorithms that infer predictive models from data. Predictive models are applicable for many practical tasks such as spam filtering, face and handwritten digit recognition, and personalized product recommendation. In general, they are used to predict a target label for a given data instance. In order to make an informed decision about the deployment of a predictive model, it is crucial to know the model’s approximate performance. To evaluate performance, a set of labeled test instances is required that is drawn from the distribution the model will be exposed to at application time. In many practical scenarios, unlabeled test instances are readily available, but the process of labeling them can be a time- and cost-intensive task and may involve a human expert.
This thesis addresses the problem of evaluating a given predictive model accurately with minimal labeling effort. We study an active model evaluation process that selects certain instances of the data according to an instrumental sampling distribution and queries their labels. We derive sampling distributions that minimize estimation error with respect to different performance measures such as error rate, mean squared error, and F-measures. An analysis of the distribution that governs the estimator leads to confidence intervals, which indicate how precise the error estimation is. Labeling costs may vary across different instances depending on certain characteristics of the data. For instance, documents differ in their length, comprehensibility, and technical requirements; these attributes affect the time a human labeler needs to judge relevance or to assign topics. To address this, the sampling distribution is extended to incorporate instance-specific costs. We empirically study conditions under which the active evaluation processes are more accurate than a standard estimate that draws equally many instances from the test distribution.
We also address the problem of comparing the risks of two predictive models. The standard approach would be to draw instances according to the test distribution, label the selected instances, and apply statistical tests to identify significant differences. Drawing instances according to an instrumental distribution affects the power of a statistical test. We derive a sampling procedure that maximizes test power when used to select instances, and thereby minimizes the likelihood of choosing the inferior model. Furthermore, we investigate the task of comparing several alternative models; the objective of an evaluation could be to rank the models according to the risk that they incur or to identify the model with lowest risk. An experimental study shows that the active procedure leads to higher test power than the standard test in many application domains.
Finally, we study the problem of evaluating the performance of ranking functions, which are used for example for web search. In practice, ranking performance is estimated by applying a given ranking model to a representative set of test queries and manually assessing the relevance of all retrieved items for each query. We apply the concepts of active evaluation and active comparison to ranking functions and derive optimal sampling distributions for the commonly used performance measures Discounted Cumulative Gain and Expected Reciprocal Rank. Experiments on web search engine data illustrate significant reductions in labeling costs. / Maschinelles Lernen befasst sich mit Algorithmen zur Inferenz von Vorhersagemodelle aus komplexen Daten. Vorhersagemodelle sind Funktionen, die einer Eingabe – wie zum Beispiel dem Text einer E-Mail – ein anwendungsspezifisches Zielattribut – wie „Spam“ oder „Nicht-Spam“ – zuweisen. Sie finden Anwendung beim Filtern von Spam-Nachrichten, bei der Text- und Gesichtserkennung oder auch bei der personalisierten Empfehlung von Produkten. Um ein Modell in der Praxis einzusetzen, ist es notwendig, die Vorhersagequalität bezüglich der zukünftigen Anwendung zu schätzen. Für diese Evaluierung werden Instanzen des Eingaberaums benötigt, für die das zugehörige Zielattribut bekannt ist. Instanzen, wie E-Mails, Bilder oder das protokollierte Nutzerverhalten von Kunden, stehen häufig in großem Umfang zur Verfügung. Die Bestimmung der zugehörigen Zielattribute ist jedoch ein manueller Prozess, der kosten- und zeitaufwendig sein kann und mitunter spezielles Fachwissen erfordert.
Ziel dieser Arbeit ist die genaue Schätzung der Vorhersagequalität eines gegebenen Modells mit einer minimalen Anzahl von Testinstanzen. Wir untersuchen aktive Evaluierungsprozesse, die mit Hilfe einer Wahrscheinlichkeitsverteilung Instanzen auswählen, für die das Zielattribut bestimmt wird. Die Vorhersagequalität kann anhand verschiedener Kriterien, wie der Fehlerrate, des mittleren quadratischen Verlusts oder des F-measures, bemessen werden. Wir leiten die Wahrscheinlichkeitsverteilungen her, die den Schätzfehler bezüglich eines gegebenen Maßes minimieren. Der verbleibende Schätzfehler lässt sich anhand von Konfidenzintervallen quantifizieren, die sich aus der Verteilung des Schätzers ergeben. In vielen Anwendungen bestimmen individuelle Eigenschaften der Instanzen die Kosten, die für die Bestimmung des Zielattributs anfallen. So unterscheiden sich Dokumente beispielsweise in der Textlänge und dem technischen Anspruch. Diese Eigenschaften beeinflussen die Zeit, die benötigt wird, mögliche Zielattribute wie das Thema oder die Relevanz zuzuweisen. Wir leiten unter Beachtung dieser instanzspezifischen Unterschiede die optimale Verteilung her. Die entwickelten Evaluierungsmethoden werden auf verschiedenen Datensätzen untersucht. Wir analysieren in diesem Zusammenhang Bedingungen, unter denen die aktive Evaluierung genauere Schätzungen liefert als der Standardansatz, bei dem Instanzen zufällig aus der Testverteilung gezogen werden.
Eine verwandte Problemstellung ist der Vergleich von zwei Modellen. Um festzustellen, welches Modell in der Praxis eine höhere Vorhersagequalität aufweist, wird eine Menge von Testinstanzen ausgewählt und das zugehörige Zielattribut bestimmt. Ein anschließender statistischer Test erlaubt Aussagen über die Signifikanz der beobachteten Unterschiede. Die Teststärke hängt von der Verteilung ab, nach der die Instanzen ausgewählt wurden. Wir bestimmen die Verteilung, die die Teststärke maximiert und damit die Wahrscheinlichkeit minimiert, sich für das schlechtere Modell zu entscheiden. Des Weiteren geben wir eine Möglichkeit an, den entwickelten Ansatz für den Vergleich von mehreren Modellen zu verwenden. Wir zeigen empirisch, dass die aktive Evaluierungsmethode im Vergleich zur zufälligen Auswahl von Testinstanzen in vielen Anwendungen eine höhere Teststärke aufweist.
Im letzten Teil der Arbeit werden das Konzept der aktiven Evaluierung und das des aktiven Modellvergleichs auf Rankingprobleme angewendet. Wir leiten die optimalen Verteilungen für das Schätzen der Qualitätsmaße Discounted Cumulative Gain und Expected Reciprocal Rank her. Eine empirische Studie zur Evaluierung von Suchmaschinen zeigt, dass die neu entwickelten Verfahren signifikant genauere Schätzungen der Rankingqualität liefern als die untersuchten Referenzverfahren.
|
Page generated in 0.1018 seconds