• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 62
  • 17
  • 8
  • 5
  • 4
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 117
  • 20
  • 18
  • 17
  • 15
  • 14
  • 14
  • 13
  • 13
  • 13
  • 13
  • 12
  • 12
  • 12
  • 12
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Noisy Speech Recognition Based on Integration/Selection of Multiple Noise Suppression Methods Using Noise GMMs

NAKAGAWA, Seiichi, HAMAGUCHI, Souta, KITAOKA, Norihide 01 March 2008 (has links)
No description available.
12

Portfolio Methods in Uncertain Contexts / Méthodes de portefeuille en contexte incertain

Liu, Jialin 11 December 2015 (has links)
Les problèmes d’investissements d’énergie sont difficiles à cause des incertitudes. Certaines incertitudes peuvent être modélisées par les probabilités. Mais il y a des problèmes difficiles tels que l'évolution de technologie et la pénalisation de CO2, délicats à modéliser par des probabilités. Aussi, les travaux sur l’optimisation des systèmes d’énergie est souvent déterministe. Cette thèse s’intéresse à appliquer l’optimisation bruitée aux systèmes d’énergie. Cette thèse se concentre sur trois parties principales: les études des méthodes pour gérer le bruit, y compris utiliser des méthodes de ré-échantillonnage pour améliorer la vitesse de convergence; les applications des méthodes de portefeuilles à l’optimisation bruitée dans le continu; les applications des méthodes de portefeuilles aux cas avec incertitudes pour la planification des investissements d’énergie et aux jeux, y compris l’utilisation de l’algorithme de bandit adversarial pour calculer l’équilibre de Nash d'un jeu matriciel à somme nulle et l’utilisation de “sparsity” pour accélérer le calcul de l’équilibre de Nash. / This manuscript concentrates in studying methods to handle the noise, including using resampling methods to improve the convergence rates and applying portfolio methods to cases with uncertainties (games, and noisy optimization in continuous domains).Part I will introduce the manuscript, then review the state of the art in noisy optimization, portfolio algorithm, multi-armed bandit algorithms and games.Part II concentrates on the work on noisy optimization:∙ Chapter 4 provides a generic algorithm for noisy optimization recovering most of the existing bounds in one single noisy optimization algorithm.∙ Chapter5 applies different resampling rules in evolution strategies for noisy optimization, without the assumption of variance vanishing in the neighborhood of the optimum, and shows mathematically log-log convergence results and studies experimentally the slope of this convergence.∙ Chapter 6 compares resampling rules used in the differential evolution algorithm for strongly noisy optimization. By mathematical analysis, a new rule is designed for choosing the number of resamplings, as a function of the dimension, and validate its efficiency compared to existing heuristics - though there is no clear improvement over other empirically derived rules.∙ Chapter 7 applies “common random numbers”, also known as pairing, to an intermediate case between black-box and white-box cases for improving the convergence.Part III is devoted to portfolio in adversarial problems:∙ Nash equilibria are cases in which combining pure strategies is necessary for designing optimal strategies. Two chapters are dedicated to the computation of Nash equilibria:– Chapter 9 investigates combinations of pure strategies, when a small set of pure strategies is concerned; basically, we get improved rates when the support of the Nash equilibrium is small.– Chapter 10 applies these results to a power system problem. This compares several bandit algorithms for Nash equilibria, defines parameter-free bandit algorithms, and shows the relevance of the sparsity approach dis- cussed in Chapter 9.∙ Then, two chapters are dedicated to portfolios of game methods:– Chapter 11 shows how to generate multiple policies, from a single one, when only one such policy is available. This kind of bootstrap (based on random seeds) generates many deterministic policies, and then combines them into one better policy. This has been tested on several games.– Chapter 12 extends chapter 11 by combining policies in a position-specific manner. In particular, we get a better asymptotic behavior than MCTS.Part IV is devoted to portfolios in noisy optimization:∙ Chapter 14 is devoted to portfolio of noisy optimization methods in continuous domains;∙ Chapter 15 proposed differential evolution as a tool for non- stationary bandit problems.
13

A decision-directed-detection scheme for PCM systems in a noisy environment

Afiomah, Stephen U. January 1986 (has links)
No description available.
14

Detecting edges in noisy face database images

Qahwaji, Rami S.R. January 2003 (has links)
no / No Abstract
15

Towards the Safety and Robustness of Deep Models

Karim, Md Nazmul 01 January 2023 (has links) (PDF)
The primary focus of this doctoral dissertation is to investigate the safety and robustness of deep models. Our objective is to thoroughly analyze and introduce innovative methodologies for cultivating robust representations under diverse circumstances. Deep neural networks (DNNs) have emerged as fundamental components in recent advancements across various tasks, including image recognition, semantic segmentation, and object detection. Representation learning stands as a pivotal element in the efficacy of DNNs, involving the extraction of significant features from data through mechanisms like convolutional neural networks (CNNs) applied to image data. In real-world applications, ensuring the robustness of these features against various adversarial conditions is imperative, thus emphasizing robust representation learning. Through the acquisition of robust representations, DNNs can enhance their ability to generalize to new data, mitigate the impact of label noise and domain shifts, and bolster their resilience against external threats, such as backdoor attacks. Consequently, this dissertation explores the implications of robust representation learning in three principal areas: i) Backdoor Attack, ii) Backdoor Defense, and iii) Noisy Labels. First, we study the backdoor attack creation and detection from different perspectives. Backdoor attack addresses AI safety and robustness issues where an adversary can insert malicious behavior into a DNN by altering the training data. Second, we aim to remove the backdoor from DNN using two different types of defense techniques: i) training-time defense and ii) test-time defense. training-time defense prevents the model from learning the backdoor during model training whereas test-time defense tries to purify the backdoor model after the backdoor has already been inserted. Third, we explore the direction of noisy label learning (NLL) from two perspectives: a) offline NLL and b) online continual NLL. The representation learning under noisy labels gets severely impacted due to the memorization of those noisy labels, which leads to poor generalization. We perform uniform sampling and contrastive learning-based representation learning. We also test the algorithm efficiency in an online continual learning setup. Furthermore, we show the transfer and adaptation of learned representations in one domain to another domain, e.g. source free domain adaptation (SFDA). We study the impact of noisy labels under SFDA settings and propose a novel algorithm that produces state-of-the-art (SOTA) performance.
16

Noisy-le-Sec, 1602-1802 étude de la démographie et de la propriété d'un village de vignerons de la campagne parisienne, aux XVIIe et XVIIIe siècles, dans leur relation avec la parenté et l'alliance, essai d'une "Histoire des familles"

Auffret, Patrick. January 1987 (has links)
Th. 3e cycle--Hist. mod.--Paris--E.H.E.S.S., 1986.
17

Effekte von Proportional Assist Ventilation und variabler Pressure Support Ventilation auf Lungenfunktion und Lungenschädigung an einem tierexperimentellen Modell des akuten Lungenversagens am Schwein

Krause, Anke 22 April 2021 (has links)
Klinischer Hintergund: Patienten mit akutem Lungenversagen (Acute respiratory distress syndome, ARDS) bedürfen intensivmedizinischer Behandlung. Die maschinelle Beatmung spielt dabei eine zentrale Rolle. Um einer zusätzlichen ventilatorassoziierten Lungenschädigung (ventiator induced lung injury, VILI) vorzubeugen, wird vom ARDS network die Beatmung mit niedrigem Atemzugvolumen empfohlen. Das Zulassen von Spontanatmung und Variabilität in der Druckunterstützung sind weitere Beatmungsstrategien, welchen in verschiedenen Studien positive Effekte im Bezug auf pulmonale Entzündungsreaktion, Schädigung des Lungengewebes und Gasaustausch zugeschrieben werden. Eine weit verbreitete Form der assistierten Spontanatmung ist die druckunterstützte Beatmung (Pressure Support Ventilation, PSV), bei der jede inspiratorische Atembemühung mit stets demselben Druck unterstützt wird. Es resultiert eine relative geringe Atemvariabilität. Eine weitere häufig angewandte Form der assistierten Spontanatmung ist die proportionale Druckunterstützung (Proportional Assist Ventilation, PAV). Hier verhält sich das Maß der Druckunterstützung proportional zu den inspiratorischen Bemühungen des Patienten. Entsprechend führt PAV, abhängig von der intrinsischen Variabilität des Patienten, zu einer höheren Variabilität an Atemzugvolumen und Atemfrequenz. Eine neuere Form der assistierten Spontanatmung ist die variable druckunterstützte Beatmung (noisy PSV), welche ebenfalls die Variabilität von Atemzugvolumen und Atemfrequenz erhöht. Im Unterschied zu PAV ist die Variabilität der Druckunterstützung extrinsisch und wird durch das Beatmungsgerät vorgegeben. Fragestellung /Hypothesen: Die vorliegende Studie untersucht die Therapieeffekte von noisy PSV, PAV und PSV auf pulmonale Entzündungsreaktion, Schädigung des Lungengewebes sowie Ventilationsverteilung im ARDS-Modell Surfactant depletierter Schweinelungen. Folgende Hypothesen wurden dazu formuliert: 1. Unter Noisy PSV zeigt sich eine Umverteilung der regionalen Ventilation von ventral nach dorsal. 2. Unter Anwendung von noisy PSV kommt es zu einer geringeren Schädigung des Lungengewebes im Vergleich zu PAV und PSV. 3. Noisy PSV kann die Entzündungsreaktion gegenüber PAV und PSV senken. Material und Methoden: 24 Jungschweine mit einem mittleren Körpergewicht von 31,3 kg (26,8 – 34,4 kg) wurden anästhesiert, intubiert und mechanisch beatmet. Die Lungenschädigung wurde mittels wiederholter Kochsalzlavagen herbeigeführt bis ein stabiles Verhältnis von arteriellem Sauerstoffpartialdruck zur inspiratorischen Sauerstofffraktion von unter 200 mmHg erreicht war. Dies entspricht der Definition eines moderaten ARDS. Nach Spontanisierung der Atmung folgte die Randomisierung der Versuchstiere zu einer der drei assistierten Beatmungsmodi noisy PSV, PAV oder PSV. Die Beatmung erfolgte jeweils mit einem mittleren Atemzugvolumen von 6 ml /kg KG über einen Zeitraum von sechs Stunden. Es wurden impedanztomographische Messungen zur regionalen Ventilationsverteilung durchgeführt. Untersuchungen zur pulmonalen Entzündungsreaktion und histologischen Schädigung des Lungengewebes wurden post mortem vorgenommen Zusätzlich erfolgten Messungen zu Hämodynamik, Atemmechanik und Gasaustausch. Außerdem wurden Atemmuster und die Variabilität der Atmung analysiert. Die Ergebnisse dieser Messungen sind jedoch nicht Gegenstand dieser Dissertation und werden an anderer Stelle diskutiert. Ergebnisse: PAV, nicht jedoch noisy PSV, führte zu einer Umverteilung der regionalen Ventilation von zentral nach dorsal im Vergleich zu PSV. Für den kumulierten DAD Score ließen sich keine signifikanten Unterschiede zwischen den Gruppen nachweisen. In schwerkraftunabhängigen Lungenabschnitten zeigten sich weniger interstitielles Ödem für PAV und noisy PSV im Vergleich zu PSV sowie weniger Hämorrhagie für PAV und PSV im Vergleich zu noisy PSV. Auch ergab sich ein geringeres Maß an Überdehnung für PAV im Vergleich zu PSV. In schwerkraftabhängigen Lungenabschnitten kam es unter noisy PSV zu einer Reduktion von interstitiellem Ödem im Vergleich zu PSV. Insgesamt, für schwerkraftabhängige und schwerkraftunabhängige Regionen zusammen betrachtet, zeigten sich weniger Hämorrhagie für PAV im Vergleich zu noisy PSV sowie weniger interstitielles Ödem für PAV und noisy PSV im Vergleich zu PSV. Unabhängig von der Therapieform war weniger Hämorrhagie in schwerkraftunabhängigen im Vergleich zu schwerkraftabhängigen Lungenabschnitten zu beobachten. Für den Gehalt an mRNA für IL-1, IL-6, IL-8, TNF-α, TGF-ß, Amphiregulin und Tenascin-c im Gewebe sowie für die Konzentration TNF-α und IL-8 im Lungengewebe, TNF-α im Blutplasma sowie IL-8 in den Proben der BAL ließen sich ebenso keine signifikanten Unterschiede zwischen den Gruppen nachweisen wie für die Proteinkonzentration in der BAL-Flüssigkeit und die Wet-/Dry-Ratio des Lungengewebes. Schlussfolgerungen: In diesem Modell des akuten Lungenversagens am Schwein resultierte eine 6-stündige Beatmungstherapie mit variabler Druckunterstützung, proportionaler Druckunterstützung oder konstanter Druckunterstützung in einer vergleichbaren Schädigung des Lungengewebes ohne wesentliche Unterschiede in der Entzündungsreaktion.
18

La stimulation vestibulaire galvanique noisy : méthodologie et impact fonctionnel

Nooristani, Mujda 05 1900 (has links)
Le système vestibulaire joue un rôle important pour plusieurs fonctions, notamment, la perception de mouvement et le maintien de l’équilibre par l’entremise du contrôle postural. Or, une dégradation de la fonction de ce système peut avoir un impact sur le contrôle postural et ainsi augmenter le risque de chutes. Au courant des dernières années, la stimulation vestibulaire galvanique noisy (nGVS) a été démontrée comme étant efficace pour stimuler le système vestibulaire et améliorer le contrôle postural. Toutefois, les données de la nGVS sont fragmentaires et les paramètres optimaux de stimulation n’ont pas été établis. L’objectif général de la thèse était d’examiner l’effet de la nGVS sur le contrôle postural. Plus précisément, cette thèse visait à déterminer la méthodologie optimale de la nGVS et l’influence de la nGVS sur le contrôle postural d’une population présentant une dégradation de la fonction vestibulaire, soit des personnes âgées. La première étude avait pour objectif d’examiner l’effet post-stimulation de la nGVS sur le contrôle postural comparativement à une stimulation placebo. Ainsi, 14 adultes ont reçu une stimulation nGVS alors que 14 autres adultes ont reçu une stimulation placebo (sham). Le contrôle postural a été examiné avant la stimulation, immédiatement après la fin de la stimulation et 1 heure post-stimulation. Les résultats ont démontré une amélioration posturale similaire chez le groupe nGVS et le groupe sham, suggérant donc l’absence d’effet de la nGVS et ainsi un biais expérimental. De ce fait, cette étude a souligné l’importance d’un groupe contrôle lors de l’étude des effets de la nGVS sur le contrôle postural. La seconde étude visait à examiner l’effet de la densité du courant de la nGVS sur le contrôle postural en manipulant la taille des électrodes de stimulation. 36 adultes ont été séparés en 2 groupes expérimentaux, recevant la nGVS, et 1 groupe contrôle, recevant une stimulation placebo. Les groupes expérimentaux recevaient la nGVS soit avec des électrodes 35 cm2 ou 3 cm2. Ainsi, une amélioration posturale significative a été induite par la nGVS appliquée avec les électrodes de 3 cm2, soit celles avec une densité de courant plus élevée, comparativement à la nGVS avec électrodes de 35 cm2 et la stimulation placebo. La troisième étude visait à examiner l’effet de la nGVS sur le contrôle postural de personnes âgées avec et sans atteinte vestibulaire. De plus, cette étude explorait également l’effet post-stimulation de la nGVS chez les personnes âgées en comparaison à une stimulation placebo. Pour ce faire, 24 personnes âgées ont reçu la nGVS, la moitié avait une atteinte vestibulaire et l’autre moitié avait une fonction vestibulaire normale, et 12 personnes âgées ont reçu une stimulation placebo. Les données ont révélé une amélioration significative du contrôle postural induite par la nGVS comparativement à la stimulation placebo. De plus, une plus grande amélioration posturale a été observée chez les personnes âgées avec atteinte vestibulaire que les sujets âgés avec fonction vestibulaire normale après l’arrêt de la stimulation. Les résultats ont également démontré que l’amélioration posturale induite par la nGVS était maintenue après l’arrêt de la stimulation. Globalement, ces études soulignent des considérations méthodologiques de la nGVS, précisément, l’importance d’une stimulation placebo et de la densité du courant. De plus, les résultats suggèrent également un effet bénéfique de la nGVS sur le contrôle postural de personnes âgées, et celles présentant une atteinte vestibulaire en bénéficieraient davantage. Toutefois, des études futures sont requises pour déterminer les effets à long terme de la nGVS et les applications cliniques. / The vestibular system plays an important role for self-motion perception and balance through postural control. Therefore, a vestibular impairment can notably lead to a decrease of postural control and a higher risk of falls. Recently, noisy galvanic vestibular stimulation has been shown to stimulate the vestibular system and thereby improves postural control. However, until now, the optimal methodology for nGVS has not been determined, and the influence of the vestibular function on the effect of nGVS on postural has not been studied. Therefore, the main objective of the thesis was to examine the effect of nGVS on postural control. More precisely, this thesis aimed at determining the optimal methodology to apply with nGVS and to examine the effect of nGVS in a population with a decreased vestibular function, namely older adults. The first study aimed at investigating the sustained effect of nGVS on postural control compared to a sham stimulation. 28 adults were recruited and they either received nGVS or a sham stimulation. Postural control was assessed before stimulation, immediately after stimulation and 1 hour post-stimulation. Results showed a similar improvement of postural control for nGVS and sham, therefore suggesting an experimental bias. This study underlined the importance of a sham stimulation in the exploration of the sustained effect of nGVS on postural stability. The second study aimed at examining the effect of nGVS current density on postural control. To manipulate current density, two different sizes of electrodes were used, therefore 12 adults received nGVS with 35 cm2 electrodes while 12 others received nGVS with 3 cm2 electrodes. The nGVS groups were compared to 12 adults receiving a sham stimulation. The results demonstrated that only nGVS applied with 3 cm2 induced a significant improvement of postural compared to nGVS applied with 35 cm2 and sham stimulation. Therefore, it suggested that higher current density is needed to improve vestibular function. The third study aimed at determining the effect of nGVS on postural control in older adults with and without vestibular impairment. Furthermore, a second objective was to examine the post-stimulation effect of nGVS in older adults compared to a sham stimulation. 36 older adults were recruited, and 24 received nGVS while 12 received a sham stimulation. The nGVS group was composed of 12 older adults with vestibular impairment and 12 with a normal vestibular function. The results revealed that nGVS significantly improved postural control of older adults compared to a sham stimulation. The improvement induced by nGVS was significantly greater in older adults with vestibular impairment compared to older adults with normal vestibular function after the end of stimulation. Furthermore, the effect of nGVS on postural control was sustained after the end of the stimulation period. In summary, these studies underlined important methodological parameters of nGVS and results showed that nGVS could be a promising approach to use with populations with a decreased vestibular function, such as older adults. However, further studies are needed to examine the extent of the sustained effect of nGVS on postural control and to evaluate clinical applications.
19

Informationstechnische Aspekte des Historical Text Re-use / Computational Aspects of Historical Text Re-use

BÜCHLER, Marco 29 April 2013 (has links) (PDF)
Gegenstand der Arbeit ----------------------- Was ist Text Re-use? Text Re-use beschreibt die mit unterschiedlichen Absichten mündliche und schriftliche Wiedergabe von Textinhalten. Diese können im Sinne einer Definition das Anerkennen einer Autorität aber auch das Wiedergeben einer besonders interessanten Information sein. Während der Fokus dieser Arbeit auf dem Erstellen eines Hypertextes durch eine Text Re-use Analysis liegt, sind die PageRanking-Technik oder auch bibliometrische Analysen weiterführende Anwendungen. Im Kontext derartiger Einsatzmöglichkeiten kann auf historischen Dokumenten, die dieser Arbeit zugrunde liegen, durch eine automatische Analyse eine noch nie zuvor erstellte Breite von Zitierabhängigkeiten erstellt werden, welche heutzutage Aufschluss darüber geben, was in früheren Zeiten als wichtig erachtet worden ist, auch wenn es in der Gegenwart für Sprachen, wie dem Altgriechischen oder dem Latein, keine Muttersprachler mehr gibt. Stand der Forschung ------------------- In der Plagiarismuserkennung, einer modernen Anwendung von Text Re-use, werden meist einfache Ngramm-Ansätze eingesetzt. Diese Form einer Abtastung eines Textes bietet in erster Linie den Vorteil, dass die benötigte Rechenzeit relativ klein bleibt. Ferner genügt dieser Ansatz, um ein einfaches Copy & Paste zu erkennen. Außerhalb des Plagiarismus stellt sich der Forschungsstand so dar, dass nahezu beliebig Daten und Algorithmen kombiniert werden. Die Ergebnisse geben datenspezifische Charakteristika wieder und sind somit oft nicht auf andere Daten reproduzierbar. Der Forschungsstand reflektiert somit mehr Insellösungen als eine ganzheitliche Sicht auf das Thema. Ganzheitliche Sicht auf Text Re-use ----------------------------------- In Kapitel 2 wird die derzeit vollständigste Systematisierung des Text Re-use vorgenommen. Dies umfasst zwei wesentliche Aspekte: - Es werden insgesamt 45 verschiedene Typisierungen von Textstellen, nachfolgend auch Meme im Sinne eines Gedanken oder Gedankensplitters genannt, eingeführt, welche in der Regel wiederverwendet werden. Entsprechende typisierte Meme reichen nur beispielhaft von Sprichwort, über Schlachtruf und Vers bis hin zur Legende. - Es wird eine Systematik zu verschiedenen Re-use Styles definiert, welche beschreibt, wie ein entsprechendes Meme wiederverwendet wird. Das kann zum Beispiel ein wortwörtliches Zitat aber auch eine Paraphrase oder Allusion sein. Das Ziel dieser ganzheitlichen Sicht besteht darin, grundlegende Eigenschaften der Meme sowie der Re-use Styles zu definieren. Während ein Meme, wie z. B. eine Redewendung, eher kurz und syntaktisch fest verwendet wird, ist es beim größeren Meme Legende üblich, dieses mündlich und damit wesentlich freier wiederzugeben. Während die Typisierung der verschiedenen Meme die Frage aufwirft, warum bestimmte Textinhalte wiederverwendet werden, gibt die zweite Systematik des Re-use Styles Aufschluss darüber, wie jeder persönlich andere Inhalte wiedergibt. Sowohl die Typisierung der verschiedenen Meme mit ihren unterschiedlichen Charakteristika als auch die Systematik der Re-use Styles reflektieren eine Data Diversity, welche eine Herausforderung sowohl für die Text Re-use Analysis aber auch für deren Evaluation aus ganzheitlicher Sicht bedeutet, da es keinen Gold Standard gibt, welcher sowohl alle möglichen Meme als auch die verschiedenen Re-use Styles adäquat repräsentiert. Forschungsfragen ---------------- Aus ganzheitlicher Sicht ergeben sich somit für diese Arbeit die folgenden Forschungsfragen: - Im Kontext der verschiedenen Re-use Styles muss die Frage danach gestellt werden, bis zu welchem Grad der Veränderung ein Text Re-use automatisch noch erkannt werden kann. - Wie kann eine Text Re-use Analysis so gestaltet werden, dass sie auch für unterschiedliche Meme mit verschiedenen Charakteristika gleich gut funktioniert? - Wie können Veränderungen eines wiederverwendenden Autors systematisch bestimmt und extrahiert werden? - Wie kann das Ergebnis einer Text Re-use Analysis in einer Digital Library in Anbetracht der Data Diversity ganzheitlich evaluiert werden? Untersuchungsmethodik und Lösungsansatz --------------------------------------- Da die Data Diversity aus informationstechnischer Sicht nicht mit einem einzelnen Algorithmus bzw. einer kleinen Menge von Ansätzen abgedeckt werden kann, wird in Kapitel 3 die 7-Level-Architektur des Historical Text Re-use vorgestellt. Diese Architektur kann als ein modulares Konzept verstanden werden, um die Text Re-use Analysis auf die verschiedenen Bedürfnisse, bedingt durch spezielle Eigenschaften von Meme, unterschiedlichen Re-use Styles aber auch verschiedenen Sprachvarianten, entsprechend anzupassen. Die einzelnen Level entsprechen den sieben Unteraufgaben Segmentation, Preprocessing, Featuring, Selection, Linking, Scoring und Postprocessing. In Kapitel 3 werden zu jedem Level in einem separaten Abschnitt entsprechende Implementierungen sowohl ausführlich vorgestellt als auch systematisiert. Zur Abgabe dieser Dissertation stehen in der TRACER-Implementierung, welche die 7-Level-Architektur umsetzt, insgesamt über eine Million Kombinationsmöglichkeiten der verschiedenen Ansätze der einzelnen Level zur Verfügung. Sowohl die drei genannten Forschungsfragen als auch die aufgezeigte Data Diversity des Historical Text Re-use werden im Rahmen der Dissertation als hinreichende Motivation verstanden, den Historical Text Re-use in Shannon\'s Noisy Channel Theorem einzubetten. In diesem Kontext kann ein Original- bzw. zitierter Autor als Source und ein wiederverwendender Autor als Target verstanden werden. Der Noisy Channel stellt ein unbekanntes Modell von Modifikationen, den äußeren Einflüssen, dar. In Kapitel 4 wird das Noisy Channel Model dazu eingesetzt, ein zufälliges und rein künstliches Störsignal zum Noisy Channel hinzuzufügen, so dass eine Randomised Digital Library entsteht. Es werden insgesamt fünf Klassen von Randomisierungstechniken, die künstlichen Störsignale, im Sinne eines Turingtests vorgestellt, welche unterschiedliche Schwierigkeitsgrade einer rein quantitativen Evaluierung mit sich bringen. Für diese quantitative Evaluierung, die Noisy Channel Evaluation, wird der neuartige Score der Mining Ability eingeführt. Die Mining Ability setzt hierbei das Ergebnis einer Text Re-use Analysis auf einer Digital Library mit dem Resultat einer durch ein künstliches Störsignal veränderten Randomised Digital Library ins Verhältnis, wodurch nicht nur Parameter optimiert sondern auch verschiedene Sprachmodelle vollautomatisch und bzgl. des Ergebnisses ganzheitlich sowie ohne Gold Standard evaluiert werden können. In Kapitel 5 wird der Noisy Channel als Modell eingesetzt, um historisch paradigmatische Relationen systematisch zu bestimmen. Das ist insbesondere unter Berücksichtigung der großen Zeitfenster von geisteswissenschaftlichen Texten von Interesse, da sich semantische Beziehungen von Konzepten im Laufe der Zeit verändert haben. Ergebnisse ---------- Die Ergebnisse dieser Arbeit sind sehr vielschichtig und umfassen neben Ergebnissen von Evaluierungen, auch Erfahrungen innerhalb der eHumanities sowie der entsprechenden Grundlagenarbeit. Im Detail können die Ergebnisse wie folgt zusammengefasst werden: Es wird im einführenden Kapitel der Dissertation das Paradigma ACID for the eHumanities vorgestellt. ACID ist hierbei eine Abkürzung für Acceptance, Complexity, Interoperability und Diversity. Diese vier Säulen werden als Aspekte vorgestellt, denen sich die Informatik in der Zusammenarbeit mit den Geisteswissenschaften stellen muss. Der Fokus der Arbeit liegt auf der Diversity aber auch Aspekte der Acceptance und Complexity werden ausführlich verdeutlicht. In Kapitel 4 wird neben der Einführung der Noisy Channel Evaluation auch aufgezeigt, welche statistischen Probleme probabilistische Sprachmodelle begleiten. Während probabilistische Sprachmodelle das Gesetz der großen Zahlen und somit eine hinreichend große Auftretenswahrscheinlichkeit voraussetzen, folgen verschiedene Charakteristika natürlicher Sprache einem Power Law, wie dem Zipfschen Gesetz, so dass für den Long Tail dieser Verteilung eine geringe Frequenz zugrunde liegt, woraus letztlich ein statistisches Problem resultiert. Im Detail kann so gezeigt werden, dass der eingeführte Score der Mining Ability bei zunehmender Größe einer Digital Library nach Erreichen eines Maximums wieder sinkt. Das resultiert daraus, dass mit zunehmender Größe der Digital Library vermehrt aus Rauschen als Neuem ``gelernt\'\' wird. Auch wenn Kapitel 4 das auf den Text Re-use einschränkt, so sind die Ergebnisse einfach auf andere probabilistische Sprachmodelle adaptierbar. Insbesondere wird der Widerspruch des Gesetzes der großen Zahlen, welches den auf Wahrscheinlichkeiten aufsetzenden Sprachmodellen implizit zugrunde liegt, und den oftmals sehr seltenen Ereignissen beim Umgang mit natürlichsprachlichen Texten deutlich. In Kapitel 5 wird weiterhin gezeigt, dass es kein Text Re-use Model gibt, welches in jedem Szenario optimale Ergebnisse liefert. Basierend auf sieben Bibelversionen mit unterschiedlichen Bezügen untereinander, wird verdeutlicht, dass sich nicht nur die Algorithmen der 7-Level-Architektur unterscheiden können, sondern auch entsprechende Schwellwerte. Im Rahmen der Arbeit werden zwei rein quantitative Evaluierungsgrößen, die Text Re-use Compression sowie die Noisy Channel Evaluation, eingeführt. In Kapitel 5 wird gezeigt, dass es eine signifikante Korrelation zu existierenden Evaluierungsgrößen gibt, welche jedoch einen Gold Standard oder zumindest eine Evaluierungsgrundlage benötigen. Einerseits gibt es eine nach Pearson sehr starke Korrelation zwischen dem Recall und der Text Re-use Compression. Andererseits wird auch gezeigt, dass das F-Measure sowie die im Rahmen dieser Arbeit eingeführte Noisy Channel Evaluation sehr vergleichbare Evaluierungsergebnisse erzeugen. Das wird im Rahmen einer System Evaluation in Kapitel 5 anhand der sieben Bibelversionen in insgesamt 504 verschiedenen Experimenten dargestellt. Beitrag zur Forschung --------------------- Neben den aufgezeigten Ergebnissen stellt diese Arbeit Grundlagenforschung sowohl in der Systematisierung des Text Re-use aber auch bei der Evaluierung von Ergebnissen dar. Wie eingangs zum Forschungsstand umrissen wurde, verlieren sich derzeit viele Arbeiten in der nahezu beliebigen Kombination aus Daten und Algorithmen. Mit dieser Arbeit wird ein Evaluierungsszenario vorgestellt, welches es ermöglicht, auch ohne Gold Standard das Ergebnis zu bewerten. Somit wird das Resultat nicht mehr durch unterschiedliche Überlappungsgrade zwischen Digital Library und Gold Standard verfälscht. Des Weiteren geht mit dieser Arbeit ein Paradigmenwechsel einher. Während in der Automatischen Sprachverarbeitung Text Re-use bisher aus einer ``1-Algorithmus-Sicht\'\' betrachtet wird, zeigen die Ergebnisse aus Kapitel 5 auf, dass zukünftig stärker der paarweise Vergleich zweier Werke im Forschungsvordergrund stehen sollte. Das geht damit einher, dass jeder Mensch einen eigenen Re-use Style besitzt, so dass durch das paarweise Vergleichen die menschlichen Individualitäten im Fokus der Text Re-use Analysis stehen. Deshalb wird vorgeschlagen, die Einzelergebnisse der werkweisen Vergleiche anschließend zu einem Hybrid Text Re-use Graph zusammenzusetzen. Mit der Noisy Channel Evaluation sowie der Text Re-use Compression stehen nun weiterführend auch vollautomatische Evaluierungstechniken zur Verfügung, so dass eine wesentlich präzisere Text Re-use Analysis möglich ist. Perspektive ----------- Entgegen modernen Anwendungen des Text Re-use, wie dem Plagiarismus, kann der Historical Text Re-use als ein nützliches Instrument verstanden werden, welches nicht nur Evidenzen von Transferwegen, sondern vielmehr auch einen fundamentalen Teil des sprachlich-kulturellen Erbes der Menschheit darstellt. Aus der Vielfalt des Historical Text Re-use ergeben sich für die Informatik im Rahmen der eHumanities vielschichtige Herausforderungen, die Gegenstand dieser Arbeit sind. Im Detail bedeutet das einen Paradigmenwechsel vom Pragmatismus im Vergleich von Sprachmodellen hin zur bestmöglichen Vollständigkeit.
20

Informationstechnische Aspekte des Historical Text Re-use: Computational Aspects of Historical Text Re-use

BÜCHLER, Marco 19 March 2013 (has links)
Gegenstand der Arbeit ----------------------- Was ist Text Re-use? Text Re-use beschreibt die mit unterschiedlichen Absichten mündliche und schriftliche Wiedergabe von Textinhalten. Diese können im Sinne einer Definition das Anerkennen einer Autorität aber auch das Wiedergeben einer besonders interessanten Information sein. Während der Fokus dieser Arbeit auf dem Erstellen eines Hypertextes durch eine Text Re-use Analysis liegt, sind die PageRanking-Technik oder auch bibliometrische Analysen weiterführende Anwendungen. Im Kontext derartiger Einsatzmöglichkeiten kann auf historischen Dokumenten, die dieser Arbeit zugrunde liegen, durch eine automatische Analyse eine noch nie zuvor erstellte Breite von Zitierabhängigkeiten erstellt werden, welche heutzutage Aufschluss darüber geben, was in früheren Zeiten als wichtig erachtet worden ist, auch wenn es in der Gegenwart für Sprachen, wie dem Altgriechischen oder dem Latein, keine Muttersprachler mehr gibt. Stand der Forschung ------------------- In der Plagiarismuserkennung, einer modernen Anwendung von Text Re-use, werden meist einfache Ngramm-Ansätze eingesetzt. Diese Form einer Abtastung eines Textes bietet in erster Linie den Vorteil, dass die benötigte Rechenzeit relativ klein bleibt. Ferner genügt dieser Ansatz, um ein einfaches Copy & Paste zu erkennen. Außerhalb des Plagiarismus stellt sich der Forschungsstand so dar, dass nahezu beliebig Daten und Algorithmen kombiniert werden. Die Ergebnisse geben datenspezifische Charakteristika wieder und sind somit oft nicht auf andere Daten reproduzierbar. Der Forschungsstand reflektiert somit mehr Insellösungen als eine ganzheitliche Sicht auf das Thema. Ganzheitliche Sicht auf Text Re-use ----------------------------------- In Kapitel 2 wird die derzeit vollständigste Systematisierung des Text Re-use vorgenommen. Dies umfasst zwei wesentliche Aspekte: - Es werden insgesamt 45 verschiedene Typisierungen von Textstellen, nachfolgend auch Meme im Sinne eines Gedanken oder Gedankensplitters genannt, eingeführt, welche in der Regel wiederverwendet werden. Entsprechende typisierte Meme reichen nur beispielhaft von Sprichwort, über Schlachtruf und Vers bis hin zur Legende. - Es wird eine Systematik zu verschiedenen Re-use Styles definiert, welche beschreibt, wie ein entsprechendes Meme wiederverwendet wird. Das kann zum Beispiel ein wortwörtliches Zitat aber auch eine Paraphrase oder Allusion sein. Das Ziel dieser ganzheitlichen Sicht besteht darin, grundlegende Eigenschaften der Meme sowie der Re-use Styles zu definieren. Während ein Meme, wie z. B. eine Redewendung, eher kurz und syntaktisch fest verwendet wird, ist es beim größeren Meme Legende üblich, dieses mündlich und damit wesentlich freier wiederzugeben. Während die Typisierung der verschiedenen Meme die Frage aufwirft, warum bestimmte Textinhalte wiederverwendet werden, gibt die zweite Systematik des Re-use Styles Aufschluss darüber, wie jeder persönlich andere Inhalte wiedergibt. Sowohl die Typisierung der verschiedenen Meme mit ihren unterschiedlichen Charakteristika als auch die Systematik der Re-use Styles reflektieren eine Data Diversity, welche eine Herausforderung sowohl für die Text Re-use Analysis aber auch für deren Evaluation aus ganzheitlicher Sicht bedeutet, da es keinen Gold Standard gibt, welcher sowohl alle möglichen Meme als auch die verschiedenen Re-use Styles adäquat repräsentiert. Forschungsfragen ---------------- Aus ganzheitlicher Sicht ergeben sich somit für diese Arbeit die folgenden Forschungsfragen: - Im Kontext der verschiedenen Re-use Styles muss die Frage danach gestellt werden, bis zu welchem Grad der Veränderung ein Text Re-use automatisch noch erkannt werden kann. - Wie kann eine Text Re-use Analysis so gestaltet werden, dass sie auch für unterschiedliche Meme mit verschiedenen Charakteristika gleich gut funktioniert? - Wie können Veränderungen eines wiederverwendenden Autors systematisch bestimmt und extrahiert werden? - Wie kann das Ergebnis einer Text Re-use Analysis in einer Digital Library in Anbetracht der Data Diversity ganzheitlich evaluiert werden? Untersuchungsmethodik und Lösungsansatz --------------------------------------- Da die Data Diversity aus informationstechnischer Sicht nicht mit einem einzelnen Algorithmus bzw. einer kleinen Menge von Ansätzen abgedeckt werden kann, wird in Kapitel 3 die 7-Level-Architektur des Historical Text Re-use vorgestellt. Diese Architektur kann als ein modulares Konzept verstanden werden, um die Text Re-use Analysis auf die verschiedenen Bedürfnisse, bedingt durch spezielle Eigenschaften von Meme, unterschiedlichen Re-use Styles aber auch verschiedenen Sprachvarianten, entsprechend anzupassen. Die einzelnen Level entsprechen den sieben Unteraufgaben Segmentation, Preprocessing, Featuring, Selection, Linking, Scoring und Postprocessing. In Kapitel 3 werden zu jedem Level in einem separaten Abschnitt entsprechende Implementierungen sowohl ausführlich vorgestellt als auch systematisiert. Zur Abgabe dieser Dissertation stehen in der TRACER-Implementierung, welche die 7-Level-Architektur umsetzt, insgesamt über eine Million Kombinationsmöglichkeiten der verschiedenen Ansätze der einzelnen Level zur Verfügung. Sowohl die drei genannten Forschungsfragen als auch die aufgezeigte Data Diversity des Historical Text Re-use werden im Rahmen der Dissertation als hinreichende Motivation verstanden, den Historical Text Re-use in Shannon\''s Noisy Channel Theorem einzubetten. In diesem Kontext kann ein Original- bzw. zitierter Autor als Source und ein wiederverwendender Autor als Target verstanden werden. Der Noisy Channel stellt ein unbekanntes Modell von Modifikationen, den äußeren Einflüssen, dar. In Kapitel 4 wird das Noisy Channel Model dazu eingesetzt, ein zufälliges und rein künstliches Störsignal zum Noisy Channel hinzuzufügen, so dass eine Randomised Digital Library entsteht. Es werden insgesamt fünf Klassen von Randomisierungstechniken, die künstlichen Störsignale, im Sinne eines Turingtests vorgestellt, welche unterschiedliche Schwierigkeitsgrade einer rein quantitativen Evaluierung mit sich bringen. Für diese quantitative Evaluierung, die Noisy Channel Evaluation, wird der neuartige Score der Mining Ability eingeführt. Die Mining Ability setzt hierbei das Ergebnis einer Text Re-use Analysis auf einer Digital Library mit dem Resultat einer durch ein künstliches Störsignal veränderten Randomised Digital Library ins Verhältnis, wodurch nicht nur Parameter optimiert sondern auch verschiedene Sprachmodelle vollautomatisch und bzgl. des Ergebnisses ganzheitlich sowie ohne Gold Standard evaluiert werden können. In Kapitel 5 wird der Noisy Channel als Modell eingesetzt, um historisch paradigmatische Relationen systematisch zu bestimmen. Das ist insbesondere unter Berücksichtigung der großen Zeitfenster von geisteswissenschaftlichen Texten von Interesse, da sich semantische Beziehungen von Konzepten im Laufe der Zeit verändert haben. Ergebnisse ---------- Die Ergebnisse dieser Arbeit sind sehr vielschichtig und umfassen neben Ergebnissen von Evaluierungen, auch Erfahrungen innerhalb der eHumanities sowie der entsprechenden Grundlagenarbeit. Im Detail können die Ergebnisse wie folgt zusammengefasst werden: Es wird im einführenden Kapitel der Dissertation das Paradigma ACID for the eHumanities vorgestellt. ACID ist hierbei eine Abkürzung für Acceptance, Complexity, Interoperability und Diversity. Diese vier Säulen werden als Aspekte vorgestellt, denen sich die Informatik in der Zusammenarbeit mit den Geisteswissenschaften stellen muss. Der Fokus der Arbeit liegt auf der Diversity aber auch Aspekte der Acceptance und Complexity werden ausführlich verdeutlicht. In Kapitel 4 wird neben der Einführung der Noisy Channel Evaluation auch aufgezeigt, welche statistischen Probleme probabilistische Sprachmodelle begleiten. Während probabilistische Sprachmodelle das Gesetz der großen Zahlen und somit eine hinreichend große Auftretenswahrscheinlichkeit voraussetzen, folgen verschiedene Charakteristika natürlicher Sprache einem Power Law, wie dem Zipfschen Gesetz, so dass für den Long Tail dieser Verteilung eine geringe Frequenz zugrunde liegt, woraus letztlich ein statistisches Problem resultiert. Im Detail kann so gezeigt werden, dass der eingeführte Score der Mining Ability bei zunehmender Größe einer Digital Library nach Erreichen eines Maximums wieder sinkt. Das resultiert daraus, dass mit zunehmender Größe der Digital Library vermehrt aus Rauschen als Neuem ``gelernt\''\'' wird. Auch wenn Kapitel 4 das auf den Text Re-use einschränkt, so sind die Ergebnisse einfach auf andere probabilistische Sprachmodelle adaptierbar. Insbesondere wird der Widerspruch des Gesetzes der großen Zahlen, welches den auf Wahrscheinlichkeiten aufsetzenden Sprachmodellen implizit zugrunde liegt, und den oftmals sehr seltenen Ereignissen beim Umgang mit natürlichsprachlichen Texten deutlich. In Kapitel 5 wird weiterhin gezeigt, dass es kein Text Re-use Model gibt, welches in jedem Szenario optimale Ergebnisse liefert. Basierend auf sieben Bibelversionen mit unterschiedlichen Bezügen untereinander, wird verdeutlicht, dass sich nicht nur die Algorithmen der 7-Level-Architektur unterscheiden können, sondern auch entsprechende Schwellwerte. Im Rahmen der Arbeit werden zwei rein quantitative Evaluierungsgrößen, die Text Re-use Compression sowie die Noisy Channel Evaluation, eingeführt. In Kapitel 5 wird gezeigt, dass es eine signifikante Korrelation zu existierenden Evaluierungsgrößen gibt, welche jedoch einen Gold Standard oder zumindest eine Evaluierungsgrundlage benötigen. Einerseits gibt es eine nach Pearson sehr starke Korrelation zwischen dem Recall und der Text Re-use Compression. Andererseits wird auch gezeigt, dass das F-Measure sowie die im Rahmen dieser Arbeit eingeführte Noisy Channel Evaluation sehr vergleichbare Evaluierungsergebnisse erzeugen. Das wird im Rahmen einer System Evaluation in Kapitel 5 anhand der sieben Bibelversionen in insgesamt 504 verschiedenen Experimenten dargestellt. Beitrag zur Forschung --------------------- Neben den aufgezeigten Ergebnissen stellt diese Arbeit Grundlagenforschung sowohl in der Systematisierung des Text Re-use aber auch bei der Evaluierung von Ergebnissen dar. Wie eingangs zum Forschungsstand umrissen wurde, verlieren sich derzeit viele Arbeiten in der nahezu beliebigen Kombination aus Daten und Algorithmen. Mit dieser Arbeit wird ein Evaluierungsszenario vorgestellt, welches es ermöglicht, auch ohne Gold Standard das Ergebnis zu bewerten. Somit wird das Resultat nicht mehr durch unterschiedliche Überlappungsgrade zwischen Digital Library und Gold Standard verfälscht. Des Weiteren geht mit dieser Arbeit ein Paradigmenwechsel einher. Während in der Automatischen Sprachverarbeitung Text Re-use bisher aus einer ``1-Algorithmus-Sicht\''\'' betrachtet wird, zeigen die Ergebnisse aus Kapitel 5 auf, dass zukünftig stärker der paarweise Vergleich zweier Werke im Forschungsvordergrund stehen sollte. Das geht damit einher, dass jeder Mensch einen eigenen Re-use Style besitzt, so dass durch das paarweise Vergleichen die menschlichen Individualitäten im Fokus der Text Re-use Analysis stehen. Deshalb wird vorgeschlagen, die Einzelergebnisse der werkweisen Vergleiche anschließend zu einem Hybrid Text Re-use Graph zusammenzusetzen. Mit der Noisy Channel Evaluation sowie der Text Re-use Compression stehen nun weiterführend auch vollautomatische Evaluierungstechniken zur Verfügung, so dass eine wesentlich präzisere Text Re-use Analysis möglich ist. Perspektive ----------- Entgegen modernen Anwendungen des Text Re-use, wie dem Plagiarismus, kann der Historical Text Re-use als ein nützliches Instrument verstanden werden, welches nicht nur Evidenzen von Transferwegen, sondern vielmehr auch einen fundamentalen Teil des sprachlich-kulturellen Erbes der Menschheit darstellt. Aus der Vielfalt des Historical Text Re-use ergeben sich für die Informatik im Rahmen der eHumanities vielschichtige Herausforderungen, die Gegenstand dieser Arbeit sind. Im Detail bedeutet das einen Paradigmenwechsel vom Pragmatismus im Vergleich von Sprachmodellen hin zur bestmöglichen Vollständigkeit.

Page generated in 0.0229 seconds