Spelling suggestions: "subject:"labeled""
11 |
Semi-supervised Ensemble Learning Methods for Enhanced Prognostics and Health ManagementShi, Zhe 15 May 2018 (has links)
No description available.
|
12 |
Positive unlabeled learning applications in music and healthcareArjannikov, Tom 10 September 2021 (has links)
The supervised and semi-supervised machine learning paradigms hinge on the idea that the training data is labeled. The label quality is often brought into question, and problems related to noisy, inaccurate, or missing labels are studied. One of these is an interesting and prevalent problem in the semi-supervised classification area where only some positive labels are known. At the same time, the remaining and often the majority of the available data is unlabeled, i.e., there are no negative examples. Known as Positive-Unlabeled (PU) learning, this problem has been identified with increasing frequency across many disciplines, including but not limited to health science, biology, bioinformatics, geoscience, physics, business, and politics. Also, there are several closely related machine learning problems, such as cost-sensitive learning and mixture proportion estimation.
This dissertation explores the PU learning problem from the perspective of density estimation and proposes a new modular method compatible with the relabeling framework that is common in PU learning literature. This approach is compared with two existing algorithms throughout the manuscript, one from a seminal work by Elkan and Noto and a current state-of-the-art algorithm by Ivanov. Furthermore, this thesis identifies two machine learning application domains that can benefit from PU learning approaches, which were not previously seen that way: predicting length of stay in hospitals and automatic music tagging. Experimental results with multiple synthetic and real-world datasets from different application domains validate the proposed approach.
Accurately predicting the in-hospital length of stay (LOS) at the time of admission can positively impact healthcare metrics, particularly in novel response scenarios such as the Covid-19 pandemic. During the regular steady-state operation, traditional classification algorithms can be used for this purpose to inform planning and resource management. However, when there are sudden changes to the admission and patient statistics, such as during the onset of a pandemic, these approaches break down because reliable training data becomes available only gradually over time. This thesis demonstrates the effectiveness of PU learning approaches in such situations through experiments by simulating the positive-unlabeled scenario using two fully-labeled publicly available LOS datasets.
Music auto-tagging systems are typically trained using tag labels provided by human listeners. In many cases, this labeling is weak, which means that the provided tags are valid for the associated tracks, but there can be tracks for which a tag would be valid but not present. This situation is analogous to PU learning with the additional complication of being a multi-label scenario. Experimental results on publicly available music datasets with tags representing three different labeling paradigms demonstrate the effectiveness of PU learning techniques in recovering the missing labels and improving auto-tagger performance. / Graduate
|
13 |
Využití neanotovaných dat pro trénování OCR / OCR Trained with Unanotated DataBuchal, Petr January 2021 (has links)
The creation of a high-quality optical character recognition system (OCR) requires a large amount of labeled data. Obtaining, or in other words creating, such a quantity of labeled data is a costly process. This thesis focuses on several methods which efficiently use unlabeled data for the training of an OCR neural network. The proposed methods fall into the category of self-training algorithms. The general approach of all proposed methods can be summarized as follows. Firstly, the seed model is trained on a limited amount of labeled data. Then, the seed model in combination with the language model is used for producing pseudo-labels for unlabeled data. Machine-labeled data are then combined with the training data used for the creation of the seed model and they are used again for the creation of the target model. The successfulness of individual methods is measured on the handwritten ICFHR 2014 Bentham dataset. Experiments were conducted on two datasets which represented different degrees of labeled data availability. The best model trained on the smaller dataset achieved 3.70 CER [%], which is a relative improvement of 42 % in comparison with the seed model, and the best model trained on the bigger dataset achieved 1.90 CER [%], which is a relative improvement of 26 % in comparison with the seed model. This thesis shows that the proposed methods can be efficiently used to improve the OCR error rate by means of unlabeled data.
|
14 |
Thinking Otherwise: Exploring Narratives of Women who Shifted from a Heterosexual to a Lesbian, Gay, Bisexual, Queer, and/or Unlabeled IdentityLemke, Clare 22 July 2015 (has links)
No description available.
|
15 |
Enhanced classification approach with semi-supervised learning for reliability-based system designPatel, Jiten 02 July 2012 (has links)
Traditionally design engineers have used the Factor of Safety method for ensuring that designs do not fail in the field. Access to advanced computational tools and resources have made this process obsolete and new methods to introduce higher levels of reliability in an engineering systems are currently being investigated. However, even though high computational resources are available the computational resources required by reliability analysis procedures leave much to be desired. Furthermore, the regression based surrogate modeling techniques fail when there is discontinuity in the design space, caused by failure mechanisms, when the design is required to perform under severe externalities. Hence, in this research we propose efficient Semi-Supervised Learning based surrogate modeling techniques that will enable accurate estimation of a system's response, even under discontinuity. These methods combine the available set of labeled dataset and unlabeled dataset and provide better models than using labeled data alone. Labeled data is expensive to obtain since the responses have to be evaluated whereas unlabeled data is available in plenty, during reliability estimation, since the PDF information of uncertain variables is assumed to be known. This superior performance is gained by combining the efficiency of Probabilistic Neural Networks (PNN) for classification and Expectation-Maximization (EM) algorithm for treating the unlabeled data as labeled data with hidden labels.
|
16 |
Nachweis und Quantifizierung von NanopartikelnDorn, Marco 20 February 2015 (has links)
Die Nanotechnologie spielt eine Schlüsselrolle bei der technologischen Entwicklung. Jedoch stellen Nanopartikel ein potentielles Gesundheitsrisiko dar. Durch ihre große Oberfläche zeigen Nanopartikel eine hohe Reaktivität und die geringe Größe trägt zu einer erhöhten Beweglichkeit und Bioverfügbarkeit bei. Beispielsweise können Nanopartikel Entzündungen auslösen oder die Produktion von freien Radikalen fördern. Insbesondere Lungenepithelzellen stellen die wichtigste Barriere zur Aufnahme von industriell relevanten Nanopartikeln im Alltag dar, denn durch ihre geringe Größe können Nanopartikel bis in einzelne Alveolen vordringen und in die Blutbahn gelangen. Aus diesen Gründen ist es notwendig das Risikopotential, was von Nanopartikeln ausgeht zu bewerten. In dieser Dissertation wurden die Metalloxid-Nanopartikel Al2O3, TiO2, Fe2O3, ZnO und CeO2 in einzelnen Lungenzellen erstmals mit Hilfe der Ionenstrahlmikroskopie quantifiziert. Darüber hinaus erfolgte die Quantifizierung von ausgewählten Metalloxid-Nanopartikeln in gedehnten primären Typ 2 Pneumozyten sowie in den Alveolen des Lungengewebes. Außerdem wurden Gold und Silber als Markierungspartikel eingesetzt, um die Aufnahme der organischen Nanopartikel Graphen zu untersuchen. Die Ionenstrahlmikroskopie ist eine hochempfindliche Methode, welche durch die charakteristische Röntgenstrahlung den zellulären Elementgehalt innerhalb einer Zelle visualisieren kann. Dies ist, je nach Element, bis zu einer unteren Konzentrationsgrenze von 5 – 20 ppm möglich. Die Ionenstrahlmikroskopie erlaubt, im Vergleich zur Elektronenstrahlmikroanalyse, biologische Proben bis zu einer Tiefe von ca. 80 µm zu untersuchen. Durch das zelluläre Rückstreusignal konnte bei Kulturzellen entschieden werden, ob die Nanopartikel internalisiert wurden oder auf der Zelloberfläche assoziiert sind. Da biologische Proben eine relativ geringe Dichte und Dicke aufweisen, ist die Signalausbeute und damit die Messzeit ein limitierender Faktor bei der ionenstrahlanalytischen Quantifizierung des Elementgehalts. Durch das Aufziehen der Probe auf einen Aluminiumrahmen, konnte der Abstand zwischen Röntgendetektor und Probe reduziert werden, was zu einer höheren Signalausbeute führte und damit eine schnellere Analyse der Präparate ermöglichte. Die Art und Weise der Probenpräparation kann einen Einfluss auf den zellulären Elementgehalt haben, indem Ionen aus dem Medium an die Zellaußenseite binden oder durch die Waschlösung ein Verlust von intrazellulär lokalisierten organischen und anorganischen Molekülen entsteht. Durch den Vergleich zwischen einer ionenfreien Polyethylenglycol-Lösung mit dem üblicherweise verwendeten Waschpuffer konnte gezeigt werden, dass sich bei der Verwendung des Waschpuffers der zelluläre Elementgehalt von Kalium, Kalzium und insbesondere Chlor erhöht. Allerdings bleiben Phosphor und Schwefel als wichtige zelluläre Strukturelemente und die biologisch relevanten Spurenelemente Eisen und Zink davon unbeeinflusst. Die ionenstrahlmikroskopische Analyse von Lungengewebe erfordert eine Einbettung der Präparate. Dabei erwies sich DePeX, was als Material routinemäßig zur Einbettung verwendet wird, als ungeeignet, da eine inhomogene Zink-Kontamination vorhanden war, welche eine intrazelluläre Zink-Messung verhinderte. Durch die Entwicklung eines neuen zinkfreien Einbettmaterials auf Limonen-Basis, konnte jetzt auch die Zinkkonzentration in Alveolen gemessen werden. Im biologischen Millieu können Proteine und Ionen auf der Oberfläche der Nanopartikel adsorbieren und dadurch deren Aufnahme in die Zelle beeinflussen. Deshalb wurde die zelluläre Aufnahme in Abhängigkeit der Proteinhülle (Korona) bei in vitro Bedingungen untersucht. Tragen die Partikel eine Korona, ist bei allen untersuchten Metalloxid-Nanopartikeln eine geringere zelluläre Konzentration zu beobachten und gleichzeitig sind weniger Nanopartikel auf der Zelloberfläche adsorbiert. Die Aufnahme von CeO2 und ZnO wurde näher untersucht, da ZnO als einziger untersuchter Nanopartikel einen deutlichen toxischen Effekt hervorruft und CeO2 durch die hohe Ausbeute des Rückstreusignals und die starke zelluläre Aufnahme zum näheren Studium der Aufnahme besonders geeignet ist. Es wurde beobachtet, dass CeO2 und ZnO im extrazellulären Raum mit Phosphat und Kalzium aus dem Kulturmedium kolokalisiert sind. Da Kalziumphosphat als Transfektionsagenz bekannt ist, kann diese Modifikation der Partikeloberfläche die Aufnahme der Partikel begünstigen. Im Vergleich zu CeO2, ist bei ZnO auf Grund der erhöhten Toxizität keine Sättigung der zellulären Konzentration zu erkennen. Daneben lässt die die Halbierung der zellulären CeO2-Konzentration nach 72 Stunden Applikationszeit darauf schließen, dass die Zellen in der Lage sind die Nanopartikel durch Exozytose wieder abzugeben. Mit Hilfe von Inhibitoren wurde der Aufnahmemechanismus von CeO2-NP untersucht. Dabei zeigte sich, dass CeO2 Nanopartikel durch Caveolae- bzw. Clathrin-vermittelte Endozytose und Makropinozytose aufgenommen werden. Die Internalisierung von CeO2 und ZnO Nanopartikeln wurde mit Hilfe des zellulären Protonen-Rückstreusignals untersucht. Internalisierte Nanopartikel liefern im Vergleich zu extrazellulär assoziierten Nanopartikeln ein Rückstreusignal bei niedrigeren Energien, da die zurückgestreuten Protonen durch die Passage des Zellmaterials zusätzlich Energie verlieren. Bei diesen Untersuchungen wurde festgestellt dass, ZnO und CeO2-Nanopartikel ohne Proteinhülle häufiger an der Zelloberfläche lokalisiert sind und zu einer höheren zellulären Konzentration führen. Sowohl im Lungengewebe als auch bei gedehnten primären Typ 2 Pneumozyten und kultivierten Lungenepithelzellen zeigte sich eine sehr inhomogene zelluläre Konzentrationsverteilung der Nanopartikel. Hier liegt die Stärke der Ionenstrahlmikroskopie darin, die Konzentration in einzelnen Zellen bzw. Alveolen erfassen zu können. Dadurch erlaubt es diese Methode, das Risiko abzuschätzen, was durch die Extrembelastung in einzelnen Zellen entstehen könnte. Da Lungengewebe aus Typ I und Typ II Pneumozyten besteht und Makrophagen in das Gewebe einwandern können, ist es in zukünftigen Experimenten notwendig die einzelnen Zelltypen zu markieren, um die Nanopartikel-Aufnahme im Lungengewebe mit den Ergebnissen der Zellkultur besser vergleichen zu können. Durch eine Markierung mit Gold-konjugierten Antikörpern, kann erreicht werden, die einzelnen Zelltypen mittels Ionenstrahlmikroskopie zu identifizieren. Durch verschiedene Applikationsformen bei in vitro und in vivo Untersuchungen ist die Wirkung der Nanopartikel nur schwer vergleichbar. Aus diesem Grund wurde in dieser Arbeit das Konzept der effektiv wirksamen zellulären Dosis eingeführt. Dieses erlaubt es, der Dosis, welche tatsächlich zellulär oder im Gewebe vorhanden ist, einen toxischen Effekt der Nanopartikel zuzuordnen. Dadurch kann die effektive Dosis als wichtige Größe zum systematischen Vergleich von toxikologischen Studien auf in vitro und in vivo Basis eingesetzt werden. Die Ionenstrahlmikroskopie ist zur Zeit die einzige Methode, welche für die intrazelluläre Quantifizierung von unmarkierten Nanopartikeln auf Einzelzellebene in Frage kommt. Deshalb ist sie als zukünftige Referenzmethode für die Dosimetrie von Nanopartikeln sehr gut geeignet.
|
17 |
NETWORK-AWARE FEDERATED LEARNING ACROSS HIGHLY HETEROGENEOUS EDGE/FOG NETWORKSSu Wang (17592381) 09 December 2023 (has links)
<p dir="ltr">The parallel growth of contemporary machine learning (ML) technologies alongside edge/-fog networking has necessitated the development of novel paradigms to effectively manage their intersection. Specifically, the proliferation of edge devices equipped with data generation and ML model training capabilities has given rise to an alternative paradigm called federated learning (FL), moving away from traditional centralized ML common in cloud-based networks. FL involves training ML models directly on edge devices where data are generated.</p><p dir="ltr">A fundamental challenge of FL lies in the extensive heterogeneity inherent to edge/fog networks, which manifests in various forms such as (i) statistical heterogeneity: edge devices have distinct underlying data distributions, (ii) structural heterogeneity: edge devices have diverse physical hardware, (iii) data quality heterogeneity: edge devices have varying ratios of labeled and unlabeled data, and (iv) adversarial compromise: some edge devices may be compromised by adversarial attacks. This dissertation endeavors to capture and model these intricate relationships at the intersection of FL and highly heterogeneous edge/fog networks. To do so, this dissertation will initially develop closed-form expressions for the trade-offs between ML performance and resource cost considerations within edge/fog networks. Subsequently, it optimizes the fundamental processes of FL, encompassing aspects such as batch size control for stochastic gradient descent (SGD) and sampling for global aggregations. This optimization is jointly formulated with networking considerations, which include communication resource consumption and device-to-device (D2D) cooperation.</p><p dir="ltr">In the former half of the dissertation, the emphasis is first on optimizing device sampling for global aggregations in FL, and then on developing a self-sufficient hierarchical meta-learning approach for FL. These methodologies maximize expected ML model performance while addressing common challenges associated with statistical and system heterogeneity. Novel techniques, such as management of D2D data offloading, adaptive CPU clock cycle control, integration of meta-learning, and much more, enable these methodologies. In particular, the proposed hierarchical meta-learning approach enables rapid integration of new devices in large-scale edge/fog networks.</p><p dir="ltr">The latter half of the dissertation directs its ocus towards emerging forms of heterogeneity in FL scenarios, namely (i) heterogeneity in quantity and quality of local labeled and unlabeled data at edge devices and (ii) heterogeneity in terms of adversarially comprised edge devices. To deal with heterogeneous labeled/unlabeled data across edge networks, this dissertation proposes a novel methodology that enables multi-source to multi-target federated domain adaptation. This proposed methodology views edge devices as sources – devices with mostly labeled data that perform ML model training, or targets - devices with mostly unlabeled data that rely on sources’ ML models, and subsequently optimizes the network relationships. In the final chapter, a novel methodology to improve FL robustness is developed in part by viewing adversarial attacks on FL as a form of heterogeneity.</p>
|
18 |
Investigating the Differential Effects of Specific Child Behaviors on Parent Behaviors and the Potential Moderating Influence of Parent ADHD and Depressive SymptomsToback, Levi M. 16 September 2022 (has links)
No description available.
|
Page generated in 0.0477 seconds