• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 3
  • 1
  • Tagged with
  • 13
  • 13
  • 13
  • 7
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

Free-text Informed Duplicate Detection of COVID-19 Vaccine Adverse Event Reports

Turesson, Erik January 2022 (has links)
To increase medicine safety, researchers use adverse event reports to assess causal relationships between drugs and suspected adverse reactions. VigiBase, the world's largest database of such reports, collects data from numerous sources, introducing the risk of several records referring to the same case. These duplicates negatively affect the quality of data and its analysis. Thus, efforts should be made to detect and clean them automatically.  Today, VigiBase holds more than 3.8 million COVID-19 vaccine adverse event reports, making deduplication a challenging problem for existing solutions employed in VigiBase. This thesis project explores methods for this task, explicitly focusing on records with a COVID-19 vaccine. We implement Jaccard similarity, TF-IDF, and BERT to leverage the abundance of information contained in the free-text narratives of the reports. Mean-pooling is applied to create sentence embeddings from word embeddings produced by a pre-trained SapBERT model fine-tuned to maximise the cosine similarity between narratives of duplicate reports. Narrative similarity is quantified by the cosine similarity between sentence embeddings.  We apply a Gradient Boosted Decision Tree (GBDT) model for classifying report pairs as duplicates or non-duplicates. For a more calibrated model, logistic regression fine-tunes the leaf values of the GBDT. In addition, the model successfully implements a ruleset to find reports whose narratives mention a unique identifier of its duplicate. The best performing model achieves 73.3% recall and zero false positives on a controlled testing dataset for an F1-score of 84.6%, vastly outperforming VigiBase’s previously implemented model's F1-score of 60.1%. Further, when manually annotated by three reviewers, it reached an average 87% precision when fully deduplicating 11756 reports amongst records relating to hearing disorders.
12

Anticipating bankruptcies among companies with abnormal credit risk behaviour : Acase study adopting a GBDT model for small Swedish companies / Förutseende av konkurser bland företag med avvikande kreditrisks beteende : En fallstudie som använder en GBDT-modell för små svenska företag

Heinke, Simon January 2022 (has links)
The field of bankruptcy prediction has experienced a notable increase of interest in recent years. Machine Learning (ML) models have been an essential component of developing more sophisticated models. Previous studies within bankruptcy prediction have not evaluated how well ML techniques adopt for data sets of companies with higher credit risks. This study introduces a binary decision rule for identifying companies with higher credit risks (abnormal companies). Two categories of abnormal companies are explored based on the activity of: (1) abnormal credit risk analysis (”AC”, herein) and (2) abnormal payment remarks (”AP”, herein) among small Swedish limited companies. Companies not fulfilling the abnormality criteria are considered normal (”NL”, herein). The abnormal companies showed a significantly higher risk for future payment defaults than NL companies. Previous studies have mainly used financial features for bankruptcy prediction. This study evaluates the contribution of different feature categories: (1) financial, (2) qualitative, (3) performed credit risk analysis, and (4) payment remarks. Implementing a Light Gradient Boosting Machine (LightGBM), the study shows that bankruptcies are easiest to anticipate among abnormal companies compared to NL and all companies (full data set). LightGBM predicted bankruptcies with an average Area Under the Precision Recall Curve (AUCPR) of 45.92% and 61.97% for the AC and AP data sets, respectively. This performance is 6.13 - 27.65 percentage units higher compared to the AUCPR achieved on the NL and full data set. The SHapley Additive exPlanations (SHAP)-values indicate that financial features are the most critical category. However, qualitative features highly contribute to anticipating bankruptcies on the NL companies and the full data set. The features of performed credit risk analysis and payment remarks are primarily useful for the AC and AP data sets. Finally, the field of bankruptcy prediction is introduced to: (1) evaluate if bankruptcies among companies with other forms of credit risk can be anticipated with even higher predictive performance and (2) test if other qualitative features bring even better predictive performance to bankruptcy prediction. / Konkursklassificering har upplevt en anmärkningsvärd ökning av intresse de senaste åren. I denna utveckling har maskininlärningsmodeller utgjort en nyckelkompentent i utvecklingen mot mer sofistikerade modeller. Tidigare studier har inte utvärderat hur väl maskininlärningsmodeller kan appliceras för att förutspå konkurser bland företag med högre kreditrisk. Denna studie introducerar en teknik för att definiera företag med högre kreditrisk, det vill säga avvikande företag. Två olika kategorier av avvikande företag introduceras baserat på företagets aktivitet av: (1) kreditrisksanalyser på företaget (”AK”, hädanefter), samt (2) betalningsanmärkningar (”AM”, hädanefter) för små svenska aktiebolag. Företag som inte uppfyller kraven för att vara ett avvikande företag klassas som normala (”NL”, hädanefter). Studien utvärderar sedan hur väl konkurser kan förutspås för avvikande företag i relation till NL och alla företag. Tidigare studier har primärt utvärdera finansiella variabler för konkursförutsägelse. Denna studie utvärderar ett bredare spektrum av variabler: (1) finansiella, (2) kvalitativa, (3) kreditrisks analyser, samt (4) betalningsanmärkningar för konkursförutsägelse. Genom att implementera LightGBM finner studien att konkurser förutspås med högst noggrannhet bland AM företag. Modellen presenterar bättre för samtliga avvikande företag i jämförelse med både NL företag och för hela datasetet. LightGBM uppnår ett genomsnittligt AUC-PR om 45.92% och 61.97% för AK och AM dataseten. Dessa resultat är 6.13-27.65 procentenheter högre i jämförelse med det AUC-PR som uppnås för NL och hela datasetet. Genom att analysera modellens variabler med SHAP-värden visar studien att finansiella variabler är mest betydelsefulla för modells prestation. Kvalitativa variabler har däremot en stor betydelse för hur väl konkurser kan förutspås för NL företag samt alla företag. Variabelkategorierna som indikerar företagets historik av genomförda kreditrisksanalyser samt betalningsanmärkningar är primärt betydelsefulla för konkursklassificering av AK samt AM företag. Detta introducerar området av konkursförutsägelse till att: (1) undersöka om konkurser bland företag med andra kreditrisker kan förutspås med högre noggrannhet och (2) test om andra kvalitativa variabler ger bättre prediktive prestandard för konkursförutsägelse.
13

Recherche de résonances W' → tb dans le canal lepton plus jets avec le détecteur ATLAS au LHC / Search for W' → tb in the lepton plus jets channel with the ATLAS detector at the LHC

Gilles, Geoffrey 28 May 2015 (has links)
Le travail de recherche réalisé au cours de cette thèse s’inscrit dans le contexte de l’expérience ATLAS, l’une des quatre grandes expériences auprès du collisionneur LHC. Il fut principalement dédié à la recherche de nouveaux bosons de jauge lourds chargés, appelé W' et prédits par de nombreuses extensions du Modèle Standard de la physique des particules. Ce manuscrit présente une recherche du boson W' se désintégrant en un quark top et un quark beau à travers une approche de couplage effectif, dans des états finals de désintégrations leptoniques du quark top. Cette recherche fut réalisée avec 20.3 fb−1 de données de collision proton-proton, produits par le LHC à une énergie dans le centre de masse de 8 TeV et collectées par le détecteur ATLAS en 2012. Plusieurs scénarios d’études sont envisagés où le boson W' se couple soit à des fermions de chiralité gauche (W'L) soit de chiralité droite (W'R). Une technique d’analyse multivariée utilisant des arbres de décision boostés (BDT) est utilisée afin de mettre évidence un excès de processus de signal dans les données enregistrées. Aucun excès n’est observé au-delà des incertitudes expérimentales pour la statistique de données analysées jusque-là. Une analyse statistique est réalisée afin d’extraire des limites d’exclusion sur la masse et la section efficace de production de la particule. Des masses inférieures à 1.92, 1.80 et 1.70 TeV furent exclues respectivement pour des bosons W'R et W'L, en tenant compte ou non d’effets d’interférence. Les limites d’exclusion sur les sections efficaces de production sont réinterprétées en matière de limite d’exclusion sur le couplage effectif g'/g de la particule. Les limites d’exclusion les plus basses observées sur le rapport g'/g, respectivement de 0.20 et 0.16 pour les recherches de bosons W'R et W'L, furent obtenues pour une masse de boson W'R/L de 0.75 TeV. Une recherche de bosons de Higgs chargés se désintégrant en un quark top et un quark beau est également présentée dans ce manuscrit. Cette dernière repose sur une approche de couplage effectif décrivant un modèle à deux doublets de Higgs de type II. Cette analyse réutilise l’infrastructure développée pour la recherche du boson W' est complétée d’études phénoménologiques liées au calcul de la section efficace de ce processus ainsi que sur la caractérisation des effets de largeur de la résonance recherchée. Les premiers résultats obtenus sur la limite d’exclusion sur la section efficace de production pp → H+→ tb montrent toutefois que cette analyse ne semble pas être en mesure d’exclure un signal de boson H+ pour l’ensemble des scénarios théoriques considérés, compte tenu des faibles sections efficaces de production prédites. En parallèle de ces activités, des développements ont été réalisés pour la simulation rapide du système de calorimétrie FastCaloSim du détecteur ATLAS afin de pallier ses limitations. En particulier, un nouveau modèle de paramétrisation et de simulation rapide de la réponse en énergie du système de calorimétrie est présenté dans ce manuscrit. Ce modèle, toujours en développement, montre des résultats très encourageant pour la simulation d’événements à pion unique et permet de réduire considérablement l’empreinte mémoire de la paramétrisation en comparaison avec des versions précédentes de FastCaloSim, tout en permettant aux futures reparamétrisations d’être plus rapides et automatisées. / The research work carried out during this Ph.D thesis has been performed in the context of the ATLAS experiment, one of the four major LHC experiments, and was primarily dedicated to the search for a new chaged heavy gauge boson, called W' and predicted by many extensions of the Standard Model of particle physics. This manuscript presents a search for W' boson decaying into a top and a bottom quark through an effective coupling approach, in the lepton plus jets final states. This search is performed with 20.3 fb−1 of proton-proton collision data, produced by the LHC with a center-of-mass energy of 8 TeV and collected by the ATLAS detector in 2012. Several scenarios are considered where the W boson can couple to left-handed (W'L) or right-handed (W'R) fermions. A multivariate techniques based on boosted decision trees is used to search for an excess of W signal process in the recorded data. No excess is observed beyond the experimental uncertainties for the data analysed so far. A statistical analysis is performed in order to extract exclusion limits on the mass and the production cross section of the particle. Masses below 1.92, 1.80 and 1.70 TeV are excluded, respectively for W'R and W'L bosons taking into account or not interference effects. These exclusion limits on the production cross section are also reinterpreted in terms of exclusion limits on the effective coupling g'/g of the particle. The lowest exclusion limits observed on the ratio g'/g are equal to 0.20 and 0.16, respectively, for W'R and W'L searches, and are obtained for a W'R/L mass of 0.75 TeV. A search for charged Higgs boson decaying into a top and a bottom quark is presented in this manuscript. This search is based on an effective coupling approach describing a type II Two Doublet Higgs Model. It reuses the analysis infrastructure developed for the W' search and is completed by phenomenological studies related to the production cross section calculation for the process and the characterisation of the resonance width effects affecting the analysis. Preliminary results on the excluded cross section limits pp → H+→ tb show that the analysis is not able to exclude a signal a H+ boson for all theoretical scenarios considered, due to low production cross sections predicted. In parallel of these activities, several developments have been performed on the fast simulation of the ATLAS calorimeter system in order to overcome its limitations. In particular, a new parametrisation and fast simulation model for the energy response of the calorimeter is presented in this manuscript. This model, still under development, shows encouraging results for simulated single pion event and allows to reduce considerably the memory footprint of the parametrisation compared to previous versions of FastCaloSim, while enabling future reparametrisations to be faster and automated.

Page generated in 0.0884 seconds