211 |
Combining output from MS-based proteomics search engines using spectrum predictors / Sammanvägning av resultat från sökmotorer för masspektrometribaserad proteomik medels spektrumprediktorerHadd, William January 2022 (has links)
Masspektrometri (MS) är en analysmetod som indikerar provers kemiska sammansättning. Provernas innehåll fragmenteras och joniseras, varefter jonernas förhållande mellan massa och laddning (m/z) och sammanlagda intensiteter mäts i form av ett masspektrum. Tandem-masspektrometri (MS/MS eller MS2) innebär att prover utsätts för MS i två omgångar, där den första resulterar i s.k precursor-joner med skilda m/z och den följande MS omgången analyserar masspektrum från varje precursor-jon. MS2 leder till masspektrum med hög upplösning vilket är användbart vid analys av komplexa prover. Proteinsammansättning i biologiska prover är ett exempel på en typ av vetenskapligt- och kliniskt viktig provtyp samt en mycket komplex sådan. Analysmetoder där MS2 används för sådan analys kallas shotgun-proteomik, vilka tar hänsyn till det extremt stora antalet möjliga peptider genom att använda specifika algoritmer för databehandling. Målet är att identifiera peptid-spektrum matchningar (PSMs), d.v.s att uppskatta vilka peptider som gett upphov till de observerade MS2-spektrumen. I detta syfte används sökmotorer som uppskattar vilka peptider som bäst matchar de precursor-jonerna som för varje MS-spektrum, och bibliotekssökning där MS2-spektrum jämförs med dokumenterade MS2-spektrum som härstammar från diverse peptider för att hitta bäst matchning. I detta projekt utnyttjas en nyligen utvecklad algoritm, en spektrumprediktor, för att skapa en workflow där peptiders masspektrum predikeras utifrån PSMs som hittats av en sökmotor. Därefter jämförs predikerade spektrum med de experimentella spektrumen som användes av sökmotorn, och likheten mellan paren av spektrum räknas ut. Projektet har som mål att kombinera fördelarna med sökmotorer och med bibliotekssökning genom att använda de uträknade likheterna mellan spektrum för att öka antalet PSMs som kan identifieras för den experimentella datan. Genom att använda PSM post-processorn Percolator så kan den uträknade likheten mellan par av spektrum leda till fler PSM-identifikationer då likheten implementeras som features i Percolator. Resultaten av detta visar att Percolator kan identifiera PSMs utifrån features baserade på likhet mellan par av spektrum, varav vissa har q-värden under 0.01 och vissa inte kunde identifieras då Percolator användes i kombination med sökmotorn Crux. Om metoden kan förbättras genom att öka den genomsnittliga likheten mellan par av spektrum, samt om fler mått på likhet implementeras, så kan metoden som beskrivs i projektet bidra till att öka antalet PSM-identifikationer utifrån sökmotorresultat. / Mass spectrometry (MS) is an analysis method revealing chemical composition of samples by fragmenting and ionizing the sample contents and measuring the mass-to-charge ratio (m/z) and cumulative intensity of each produced ion as an ion mass spectrum. Tandem mass spectrometry (MS/MS or MS2) uses two round of MS, the first to produce a set of precursor ions with distinct m/z, and then sequentially analyzing the ionization pattern of each precursor ion with a second round of MS. For complex samples, MS2 provides vastly increased ability to resolve the sample contents. Protein contents of biological samples represents both a critically important analysis target and a highly complex sample type. Analysis of such samples using MS2 is known as shotgun proteomics. The vast number of possible peptides in these samples necessitates the use of specialized algorithms when interpreting MS2 results data which aim to find peptide-spectrum matches (PSMs) between spectra and peptides identities. This includes search engines that predict which peptides best match each MS2 precursor ion, as well as library searching which match known peptide spectra to the MS2 spectral data. This project uses a recent advancement in shotgun proteomics, spectrum predictors, in a workflow that predicts peptide fragment spectra based on peptide identities suggested by a search engine, and calculates spectral similarity between the predicted peptide spectra and the experimental spectra which were assigned these peptides. This method aims to combine the strengths of both search engines and library searching, and to use the similarity score between experimental and predicted spectra to increase the number of spectra that can be confidently matched to a peptide identity. This project utilizes the PSM post-processor Percolator to rescore PSMs after introducing predicted spectrum similarity as a feature of the PSMs. The results indicate that the predicted spectrum similarity score is able to identify additional PSMs when used as a Percolator feature, when compared to the default Percolator PSM features. When using a combination of three similarity scores as a Percolator feature set, a number of PSMs are identified with q-values below 0.01 which were not identified by the corresponding Crux followed by Percolator workflow. If the average spectral similarity of predicted- and experimental spectra can be increased, and additional effective similarity scores can be added, this workflow could provide a useful tool for increasing PSM identifications from search engine results.
|
212 |
High Resolution Quality Enhancement of Digitized Artwork using Generative Adversarial Networks / Högupplöst bildkvalitetsförbättring av digitaliserade konstverk med generativa motståndarnätverkMagnusson, Dennis January 2022 (has links)
Digitization of physical artwork is usually done using image scanning devices in order to ensure that the output is accurate in terms of color and is of sufficiently high resolution, usually over 300 pixels per inch, however the usage of such a device is in some cases unfeasible due to medium or size constraints. Photography of the artwork is another method of artwork digitization, however such methods often produce results containing camera artifacts such as shadows, reflections or low resolution. This thesis project explores the possibility of creating an alternative to image scanners using smartphone photography and machine learning-based methods. Due to the very high memory requirement for enhancing images at very high resolutions, this is done in a two-stage process. The first stage uses an unpaired image style transfer model to remove shadows and highlights. The second stage uses a superresolution model to increase the resolution of the image. The results are evaluated on a small set of paired images using objective metrics and subjective metrics in the form of a user study. In some cases the method removed camera artifacts in the form of reflection and color accuracy, however the best results were achieved when the input data did not contain any major camera artifacts. Based on this it seems likely that style transfer models are not applicable for problems with a wide range of expected input and output. The use of super-resolution seems to be a crucial component of high-resolution image enhancement and the current state-of-the-art methods are able to convincingly increase the resolution of images provided that the input is of a sufficiently high resolution. The subjective evaluation shows that commonly used metrics such as structural similarity and Fréchet Inception Distance are applicable for this type of problem when analyzing the full image, however for smaller details other evaluation methods are required. / Digitalisering av fysiska konstverk görs vanligtvis med bildskannrar för att försäkra att den digitaliserade bilden är färgnoggrann och att upplösningen är tillräckligt hög, vanligtvis över 300 pixlar per tum. Dock är användandet av bildskannrar ibland svårt på grund av konstverkets material eller storlek. Fotografi av konstverk är en annan metod för digitalisering, men denna metod producerar ofta kameraartefakter i form av skuggor, reflektioner och låg upplösning. Detta examensarbete utforskar möjligheten att skapa ett alternativ till bildskannrar genom att använda smartphonefotografi och maskininlärningsbaserade metoder. På grund av de höga minneskraven för bildförbättring med mycket höga upplösningar görs detta i en tvåstegsprocess. Det första steget använder oparad bildstilöversättning för att eliminera skuggor och ljuspunkter. Det andra steget använder en superupplösningsmodell för att öka bildens upplösning. Resultaten utvärderas på en liten mängd parade bilder med objektiva jämförelser och subjektiva jämförelser i form av en användarstudie. I vissa fall reducerade metoden kameraartefakter i form av reflektioner och förbättrade färgexakthet, dock skedde dessa resultat i fall där indatan inte innehöll några större kameraartefakter. Baserat på detta är det sannolikt att stilöversättningsmodeller inte är applicerbara för problem med ett brett omfång av möjliga indata och utdata. Användandet av superupplösning verkar vara en viktig komponent av högupplöst bildförbättring och de bäst presenterande metoderna kan övertygande öka upplösningen av bilder i fall där indatan är av tillräckligt hög upplösning. Den subjektiva utvärderingen visar att vanligt använda utvärderingsmetoder som Fréchet-Inception-avstånd och strukturell likhet är applicerbara för denna typ av problem när de används för att analysera en hel bild, men för mindre detaljer behövs alternativa utvärderingsmetoder.
|
213 |
AI:s påverkan på e-handelslager / The impact of AI on E-commerce warehousesKaradaghi, Randj, Ibrahim, Mustafa January 2023 (has links)
Denna studie undersöker implementeringen av AI-teknologi på e-handelslager samt effekten av implementeringen på de anställda. Studien använder sig av kvalitativa och kvantitativa forskningsmetoder. Studien framhäver att i intervjun som genomförts samt majoriteten av svaren från enkäterna, responsen till effekterna av AI-implementering är relativt positiv fastän respondenterna uttrycker oro över att arbetet de utför kan ersättas med AI-teknik i framtiden. Undersökningen har fokuserat på ICA:s e-handelslager och resultaten understryker att implementeringen av AI-teknologi har förbättrat lagerhanteringen, minskat lagerkostnader och ökat effektiviteten. Samtidigt har det även medfört förändringar för de anställda vilket har resulterat i obligatoriska utbildningar och omplaceringar för att bemöta dem nya behoven. Slutligen kan vi dra slutsatsen att implementering av AI-teknologi kan leda till viktiga fördelar inom lager och logistik, men det krävs utbildning och stöd för att möjliggöra till att utnyttja teknologin på ett effektivt och skickligt sätt, på samma gång bemöta utmaningarna. Det är grundläggande att ta hänsyn till etiska och datasekretessfrågor, samt hantera arbetskraftens påverkan på ett ansvarsfullt tillvägagångsätt. Med dessa faktorer som utgångspunkt utgör AI-teknologi en vägande nyckelfaktor för att förbättra lagerhantering och logistik i framtiden. / This study examines the implementation of AI technology on e-commerce warehouses as well as the impact of the implementation on the employees. The study uses qualitative and quantitative research methods. The study accentuates that in the interview conducted as well as the majority of responses from the surveys, the response to the effects of AI implementation is relatively positive although the respondents express concern that the work they do may be replaced by AI technology in the future. The survey has focused on ICA's e-commerce inventory, and the results underline that the implementation of AI technology has improved inventory management, reduced inventory costs and increased efficiency. At the same time, it has also brought about changes for the employees, which has resulted in mandatory training and relocation to meet their new needs. Finally, we can conclude that implementation of AI technology can lead to important advantages in warehouse and logistics, but training and support are required to enable to use the technology efficiently and skillfully, while meeting the challenges. It is fundamental to consider ethical and data privacy issues, as well as manage the impact of the workforce in a responsible approach. With these factors as a starting point, AI technology is a major key factor in improving warehouse management and logistics in the future.
|
214 |
Predicting Coherent Turbulent Structures with Artificial Neural Networks / Förutspå Coherent Turbulent Structuresmed Artificiella Neurala NätverkSchmekel, Daniel January 2021 (has links)
Turbulent flow is widespread in many applications, such as airplanes or cars. Such flow is characterized by being highly chaotic and impossible to predict far into the future. In turbulent flow, there exist regions that have different properties compared to neighboring flow; these regions are called coherent turbulent structures. These structures are connected to Reynolds stress which is essential for modeling turbulent flow. Machine learning techniques have recently had very impressive results for modeling turbulence. In this thesis, we investigate their capabilities of modeling coherent structures. We use data from a highly accurate simulation to create two different artifical neural networks. These networks are tuned by hand, trained, and then we evaluate their performance. We investigate the loss of the networks and the statistical properties of their predictions and compare them to the simulated data. / Turbulent flöde är utbrett i många applikationer, såsom flygplan eller bilar. Sådant flöde kännetecknas av att det är mycket kaotiskt och omöjligt att förutse långt in i framtiden. I turbulent flöde finns det regioner som har olika egenskaper jämfört med närliggande flöde; dessa regioner kallas coherent turbulent structures. Dessa strukturer är kopplade till Reynolds stress, som är avgörande för att modellera turbulent flöde. Maskininlärningstekniker har nyligen haft mycket imponerande resultat för modellering av turbulens. I denna avhandling undersöker vi deras förmåga att modelelera coherent turbulent structures. Vi använder data från en mycket exakt simulering för att skapa två olika artificiella neurala nätverk. Dessa nätverks hyperparameterar väljs manuellt, tränas och sedan utvärderar vi deras resultat. Vi undersöker förlusten av nätverken och de statistiska egenskaperna hos deras förutsägelser och jämför dem med simulerade data.
|
215 |
Predicting Patent Data using Wavelet Regression and Bayesian Machine Learning / Modellering av Patentdata med Wavelet Regression och Bayesiansk MaskininlärningMartinsen, Mattias January 2023 (has links)
Patents are a fundamental part of scientific and engineering work, ensuringprotection of inventions owned by individuals or organizations. Patents areusually made public 18 months after being filed to a patent office, whichmeans that current publicly available patent data only provides informationabout the past. Regression models applied on discrete time series can be usedas a prediction tool to counteract this, building a 18 month long bridge intothe future and beyond. While linear models are popular for their simplicity,Bayesian networks have statistical properties that can produce high forecastingquality. Improvements is also made by using signal processing as patentdata is naturally stochastic. This thesis implements wavelet-based signalprocessing and P CA to increase stability and reduce overfitting. A multiplelinear regression model and a Bayesian network model is then designed andapplied to the transformed data. When evaluated on each data set, the Bayesianmodel both performs better and exhibits greater stability and consistency inits predictions. As expected, the linear model is both smaller and faster toevaluate and train. Despite an increase in complexity and slower evaluationtimes, the Bayesian model is conclusively superior to the linear model. Futurework should focus on the signal processing method and additional layers inthe Bayesian network. / Patent är en grundläggande byggsten av den tekniska världen då de skyddaruppfinningar som ägs av individer eller organisationer. Patent publicerasvanligtvis 18 månader efter att de lämnats in till ett patentverk, vilket innebäratt patentdata som är tillgänglig idag endast ger information om det förflutna.Regressionsmodeller som förutspår diskreta tidsserier kan användas somett verktyg för att motverka detta. Då linjära modeller är populära för sinenkelhet, har Bayesianska nätverk statistiska egenskaper som kan produceramodeller med hög kvalité. Patentdata är naturligt kaotisk och måste bearbetasinnan en modell använder den. Denna uppsats implementerar wavelet-baseradsignalbehandling och P CA som förbättrar stabilitet och kvalité. En linjärregressionsmodell och en Bayesiansk nätverksmodell designas och applicerassedan på transformerad data. I varje enskilt fall presterar den Bayesianskamodellen bättre med stabila och konsekventa förutsägelser. Som förväntatär den linjära modellen snabbare att både använda och träna. Trots en ökadkomplexitet och långsammare evaluering är den Bayesianska modellen ettsjälvklart val över den linjära modellen. Framtida förbättringar bör fokuserapå behandling av indata och komplexiteten i det Bayesianska nätverket.
|
216 |
Outlier detection on sparse-encoded vibration signals from rolling element bearingsAl-Kahwati, Kammal January 2019 (has links)
The demand for reliable condition monitoring systems on rotating machinery for power generation is continuously increasing due to a wider use of wind power as an energy source, which requires expertise in the diagnostics of these systems. An alternative to the limited availability of diagnostics and maintenance experts in the wind energy sector is to use unsupervised machine learning algorithms as a support tool for condition monitoring. The way condition monitoring systems can employ unsupervised machine learning algorithms consists on prioritizing the assets to monitor via the number of anomalies detected in the vibration signals of the rolling element bearings. Previous work has focused on the detection of anomalies using features taken directly from the time or frequency domain of the vibration signals to determine if a machine has a fault. In this work, I detect outliers using features derived from encoded vibration signals via sparse coding with dictionary learning. I investigate multiple outlier detection algorithms and evaluate their performance using different features taken from the sparse representation. I show that it is possible to detect an abnormal behavior on a bearing earlier than reported fault dates using typical condition monitoring systems.
|
217 |
Monthly heatwave prediction in Sweden based on Machine Learning techniques with remote sensing data / Månadsförutsägelse av värmeböljor i Sverigebaserad på maskininlärningstekniker med fjärranalysdataLi, Zhuoran January 2023 (has links)
Heatwave events as a kind of extreme climate event, have plagued the human race for the past few years. It severely influences people’s life quality, sometimes even leads to some serious diseases. In order to alleviate the possible damages heatwave events can do, some targeted actions are necessary and forecasting heatwaves is one of them. This study focuses on predicting potential heatwave events in Sweden, replying on the correlations between multiple meteorological and surface-related features, with the help of machine learning techniques. The related remote sensing data of 21 features are extracted and implemented with features selection using a correlation heatmap and 16 of them are finally determined to be used for prediction. Five types of classifiers LR, Gaussian NB, KNN, RF and XGBoost are utilized on the training and validation datasets with hyperparameter tuning and threshold tuning methods to choose the model that has the best performance to predict heatwaves using the test dataset. The results show that RF and XGBoost both perform well on the validation set, but XGBoost is more suitable applying on the test set since XGBoost possesses a higher generality. / Värmeböljor som en sorts extrem klimathändelse har plågat mänskligheten under de senaste åren. Det påverkar allvarligt människors livskvalitet, ibland till och med leder till några allvarliga sjukdomar. För att lindra de möjliga skadorna som värmeböljor kan orsaka är några riktade åtgärder nödvändiga och att förutse värmeböljor är en av dem. Denna studie fokuserar på att förutsäga potentiella värmeböljshändelser i Sverige, svara på sambanden mellan flera meteorologiska och ytrelaterade egenskaper, med hjälp av maskininlärningstekniker. De relaterade fjärravkänningsdata för 21 funktioner extraheras och implementeras med funktionsval med hjälp av en korrelationsvärmekarta och 16 av dem bestäms slutligen att användas för förutsägelse. Fem typer av klassificerare LR, Gaussian NB, KNN, RF och XGBoost används på tränings- och valideringsdataseten med hyperparameterjustering och tröskeljusteringsmetoder för att välja den modell som har bäst prestanda för att förutsäga värmeböljor med hjälp av testdatauppsättningen. Resultaten visar att RF och XGBoost båda presterar bra på valideringssetet, men XGBoost är mer lämpligt att applicera på testsetet eftersom XGBoost har en högre generalitet.
|
218 |
Multimodal Machine Learning in Human Motion AnalysisFu, Jia January 2022 (has links)
Currently, most long-term human motion classification and prediction tasks are driven by spatio-temporal data of the human trunk. In addition, data with multiple modalities can change idiosyncratically with human motion, such as electromyography (EMG) of specific muscles and respiratory rhythm. On the other hand, progress in Artificial Intelligence research on the collaborative understanding of image, video, audio, and semantics mainly relies on MultiModal Machine Learning (MMML). This work explores human motion classification strategies with multi-modality information using MMML. The research is conducted using the Unige-Maastricht Dance dataset. Attention-based Deep Learning architectures are proposed for modal fusion on three levels: 1) feature fusion by Component Attention Network (CANet); 2) model fusion by fusing Graph Convolution Network (GCN) with CANet innovatively; 3) and late fusion by a simple voting. These all successfully exceed the benchmark of single motion modality. Moreover, the effect of each modality in each fusion method is analyzed by comprehensive comparison experiments. Finally, statistical analysis and visualization of the attention scores are performed to assist the distillation of the most informative temporal/component cues characterizing two qualities of motion. / För närvarande drivs uppgifter som långsiktig klassificering och förutsägelse av mänskliga rörelser av spatiotemporala data från människans bål. Dessutom kan data från flera olika modaliteter förändras idiosynkratiskt med mänsklig rörelse, t.ex. elektromyografi (EMG) av specifika muskler och andningsrytm. Å andra sidan bygger forskning inom artificiell intelligens för samtidig förståelse av bild, video, ljud och semantik huvudsakligen på multimodal maskininlärning (MMML). I det här arbetet undersöks strategier för klassificering av mänskliga rörelser med multimodal information med hjälp av MMML. Forskningen utförs med hjälp av Unige-Maastricht Dance dataset. Uppmärksamhetsbaserade djupinlärningsarkitekturer föreslås för modal fusion på tre nivåer: 1) funktionsfusion genom Component Attention Network (CANet), 2) modellfusion genom en innovativ fusion av Graph Convolution Network (GCN) med CANet, 3) och sen fusion genom en enkel omröstning. Alla dessa överträffar riktmärket med en enda rörelsemodalitet. Dessutom analyseras effekten av varje modalitet i varje fusionsmetod genom omfattande jämförelseexperiment. Slutligen genomförs en statistisk analys och visualiseras av uppmärksamhetsvärdena för att hjälpa till att hitta de mest informativa temporala signaler eller komponentsignaler som kännetecknar två typer av rörelse.
|
219 |
Radio Environment Compensation in a Narrowband IoT Positioning System : Using Radio Signal Metrics Between Stationary Devices / Radiomiljö kompensering i ett smalbandigt IoT positioneringssystem : Genom använding av radiosignalmått mellan stationära enheterBerglund, Elin January 2023 (has links)
The Internet of Things (IoT) has emerged as a powerful tool for meeting our need to collect information about and interact with our environments. One important aspect of this technology is positioning which imposes requirements on both the energy consumption and the arrangement of the systems. For devices that run on battery, low energy consumption is critical and for large deployments, there is a need to minimize the number of devices to reduce cost. Narrowband sub-GHz positioning systems allow for long-range and low-energy functionality at the cost of positioning accuracy compared to wider bandwidth systems. One significant factor that impacts the accuracy of positioning systems is the quality of the radio environment. The aim of this thesis is to investigate methods for using stationary devices in positioning systems for mitigating the effect of the radio environment. The focus lies on a specific IoT narrowband sub-GHz system that use received signal strength indicator and time-of-flight to create range estimates. To meet the objectives, a measurement analysis is performed on a real system deployment. The analysis results in two methods for compensating the range estimations between the devices to locate and the stationary devices in the system. The first method creates a compensation factor based on the measurements from a closely located stationary device. The second method implement and tests six regression models trained on measurements between one or several closely located stationary devices. The results show that both approaches improve the range estimates in the system for two different system deployments. The best method show approximately 76 % improvement on the first deployment and 66 % improvement on the second. The results also show that the training set has to include data from a similar environment for the model to improve the range estimates. Further, for the implemented positioning algorithm, the best methods show no effect on the positioning accuracy in the first deployment and approximately 15 % improvement in the second. / Internet of Things (IoT) möter våra behov av att samla information och interagera med våra miljöer. En viktig aspekt av denna teknik är positionering som ställer krav på både energiförbrukning och systemens anordning. För enheter som körs på batteri är låg energiförbrukning avgörande och för stora distributioner finns ett behov av att minimera antalet enheter för att minimera kostnader. Sub-GHz positioneringssystem med smal bandbredd möjliggör lång räckvidd och låg energiförbrukning till priset av en lägre positioneringsnoggrannhet i jämförelse med system med bredare bandbredd. En viktig faktor som påverkar positioneringsnoggrannheten är kvalitén på radiomiljön. Målet med det här examensarbetet är att undersöka metoder för att använda stationära enheter i positioneringssystem för att mildra effekten av radiomiljön. Fokuset ligger på ett specifikt smalbandigt IoT sub-GHz system som använder sig av mottagen signalstyrka och time-of-flight för att skapa avståndsuppskattningar. För att nå målen utförs en analys av mätdata från en verklig systeminstallation. Analysen resulterar i två metoder för att kompensera avståndsuppskattningar mellan de stationära enheterna och enheterna som ska lokaliseras. Den första metoden skapar en kompenseringsfaktor baserat mätningar från en närliggande stationär enhet. Den andra metoden implementerar och testar sex regressionsmodeller som tränas på mätningar mellan en eller flera närliggande stationära enheter. Resultaten visar att båda metoderna förbättrar avståndsuppskattningarna i systemet för två olika systeminstallationer. Den bästa metoden visar ungefär 76 % förbättring för den första installationen och 66 % förbättring för den andra. Resultaten visar också att träningsdatan måste inkludera data från en liknande miljö för att modellerna ska ge en förbättring av avståndsuppskattningarna. Vidare visas att den bästa metoden för avståndsuppskattningarna inte har någon effekt på positioneringsnoggrannheten för den första installationen och ger en 15 % förbättring för den andra.
|
220 |
Image-Guided Zero-Shot Object Detection in Video Games : Using Images as Prompts for Detection of Unseen 2D Icons / Bildstyrd Zero-Shot Objektdetektering i Datorspel : Användning av Bilder för att Diktera Detektion av Osedda 2D-ikonerLarsson, Axel January 2023 (has links)
Object detection deals with localization and classification of objects in images, where the task is to propose bounding boxes and predict their respective classes. Challenges in object detection include large-scale annotated datasets and re-training of models for specific tasks. Motivated by these problems, we propose a zero-shot object detection (ZSD) model in the setting of user interface icons in video games. Allowing to quickly and accurately analyze the state of a game, with potentially millions of people watching, would greatly benefit the large and fast-growing video game sector. Our resulting model is a modification of YOLOv8, which, at inference time, is prompted with the specific object to detect in an image. Many existing ZSD models exploit semantic embeddings and high-dimensional word vectors to generalize to novel classes. We hypothesize that using only visual representations is sufficient for the detection of unseen classes. To train and evaluate our model, we create synthetic data to reflect the nature of video game icons and in-game frames. Our method achieves similar performance as YOLOv8 on bounding box prediction and detection of seen classes while retaining the same average precision and recall for unseen classes, where the number of unseen classes is in the order of thousands. / Objektdetektering handlar om lokalisering och klassificering av objekt i bilder, där uppgiften är att föreslå omskrivande rektanglar och prediktera de respektive klasserna. Utmaningar i objektdetektering inkluderar storskaliga annoterade datamängder och omträning av modeller för specifika uppgifter. Motiverade av dessa problem föreslår vi en zero-shot-modell för objektdetektering riktat mot användargränssnittsikoner i datorspel. Att snabbt och precist kunna analysera tillståndet i ett spel, med potentiellt miljontals människor som tittar, skulle vara till stor nytta för den snabbväxande datorspelssektorn. Vår slutliga modell är en modifiering av YOLOv8, som vid inferens förses med det specifika objektet som ska upptäckas i en given bild. Många befintliga zero-shot-modeller inom objektdetektering utnyttjar semantiska inbäddningar och högdimensionella ordvektorer för att generalisera till nya klasser. Vi hypotiserar att det är tillräckligt att använda visuella representationer för att upptäcka osedda klasser. För att träna och utvärdera vår modell skapar vi syntetisk data för att återspegla spelbilder och ikoner från datorspel. Vår metod uppnår liknande prestanda som YOLOv8 på prediktion av omskrivande rektanglar och på sedda klasser där antalet klasser är lågt. Samtidigt upprätthåller vi samma positiva prediktionsvärde och sensitivitet för osedda klasser där antalet klasser uppgår till tusentals.
|
Page generated in 0.0561 seconds