Global ETD Search

231	Real-time hand segmentation using deep learning / Hand-segmentering i realtid som använder djupinlärning Favia, Federico January 2021 (has links) Hand segmentation is a fundamental part of many computer vision systems aimed at gesture recognition or hand tracking. In particular, augmented reality solutions need a very accurate gesture analysis system in order to satisfy the end consumers in an appropriate manner. Therefore the hand segmentation step is critical. Segmentation is a well-known problem in image processing, being the process to divide a digital image into multiple regions with pixels of similar qualities. Classify what pixels belong to the hand and which ones belong to the background need to be performed within a real-time performance and a reasonable computational complexity. While in the past mainly light-weight probabilistic and machine learning approaches were used, this work investigates the challenges of real-time hand segmentation achieved through several deep learning techniques. Is it possible or not to improve current state-of-theart segmentation systems for smartphone applications? Several models are tested and compared based on accuracy and processing speed. Transfer learning-like approach leads the method of this work since many architectures were built just for generic semantic segmentation or for particular applications such as autonomous driving. Great effort is spent on organizing a solid and generalized dataset of hands, exploiting the existing ones and data collected by ManoMotion AB. Since the first aim was to obtain a really accurate hand segmentation, in the end, RefineNet architecture is selected and both quantitative and qualitative evaluations are performed, considering its advantages and analysing the problems related to the computational time which could be improved in the future. / Handsegmentering är en grundläggande del av många datorvisionssystem som syftar till gestigenkänning eller handspårning. I synnerhet behöver förstärkta verklighetslösningar ett mycket exakt gestanalyssystem för att tillfredsställa slutkonsumenterna på ett lämpligt sätt. Därför är handsegmenteringssteget kritiskt. Segmentering är ett välkänt problem vid bildbehandling, det vill säga processen att dela en digital bild i flera regioner med pixlar av liknande kvaliteter. Klassificera vilka pixlar som tillhör handen och vilka som hör till bakgrunden måste utföras i realtidsprestanda och rimlig beräkningskomplexitet. Medan tidigare använts huvudsakligen lättviktiga probabilistiska metoder och maskininlärningsmetoder, undersöker detta arbete utmaningarna med realtidshandsegmentering uppnådd genom flera djupinlärningstekniker. Är det möjligt eller inte att förbättra nuvarande toppmoderna segmenteringssystem för smartphone-applikationer? Flera modeller testas och jämförs baserat på noggrannhet och processhastighet. Transfer learning-liknande metoden leder metoden för detta arbete eftersom många arkitekturer byggdes bara för generisk semantisk segmentering eller för specifika applikationer som autonom körning. Stora ansträngningar läggs på att organisera en gedigen och generaliserad uppsättning händer, utnyttja befintliga och data som samlats in av ManoMotion AB. Eftersom det första syftet var att få en riktigt exakt handsegmentering, väljs i slutändan RefineNetarkitekturen och både kvantitativa och kvalitativa utvärderingar utförs med beaktande av fördelarna med det och analys av problemen relaterade till beräkningstiden som kan förbättras i framtiden. Hand Segmentation Semantic Segmentation Deep Learning Convolutional Neural Networks Real-time Augmented Reality Embedded Devices Dataset Transfer Learning Handsegmentering Semantisk Segmentering Djupinlärning Konvolutionsneurala Nätverk Realtid Förstärkt Verklighet Inbäddade Enheter Datauppsättning Transferlärning Elektroteknik och elektronik
232	Real-time uncertainty estimation for deep learning / Realtidsosäkerhetsuppskattning för djupinlärning Dagur Guðmundsson, Árni January 2023 (has links) Modern deep neural networks do not produce well calibrated estimates of their own uncertainty, unless specific uncertainty estimation techniques are applied. Common uncertainty estimation techniques such as Deep Ensembles and Monte Carlo Dropout necessitate multiple forward pass evaluations for each input sample, making them too slow for real-time use. For real-time use, techniques which require only a single-forward pass are desired. Evidential Deep Learning (EDL), and Multiple-Input Multiple-Output (MIMO) networks are prior art in the space of real-time uncertainty estimation. This work introduces EDL-MIMO, a novel real-time uncertainty estimation method which combines the two. The core of this thesis is dedicated to comparing the quality of this new method to the pre-existing baselines of EDL and MIMO alone. / De neurala nätverk vi har idag har svårigheter med att bedöma sin egen osäkerhet utan särskilda metoder. Metoder som Deep Ensembles och Monte Carlo Dropout kräver flera beräkningar för varje indata, vilket gör dem för långsamma i realtid. För realtidstillämpning behövs metoder som endast kräver en beräkning. Det finns redan vetenskapliga artiklar om osäkerhetsmetoder som Evidential Deep Learning (EDL), och Multiple-Input Multiple-Output (MIMO) networks. Denna uppsats introducerar en ny metod som kombinerar båda. Fokus ligger på att jämföra kvaliteten på denna nya metod med EDL och MIMO när de används ensamma / Djúptauganet nútímans eiga erfitt með að meta sína eigin óvissu, án þess að sérstakar óvissumatsaðferðir séu notaðar. Algengar óvissumatsaðferðir líkt og Deep Ensembles, og Monte Carlo Dropout, krefjast þess að djúptauganetið sé reiknað oftar en einu sinni fyrir hvert inntak, sem gerir þessar aðferðir of hægar fyrir rauntímanotkun. Fyrir rauntímanotkun er leitast eftir aðferðum sem krefjast bara einn reikning. Evidential Deep Learning (EDL), og Multiple-Input Multiple-Output (MIMO) networks eru óvissumatsaðferðir sem hafa verið birtar í fyrri greinum. Þessi ritgerð kynnir í fyrsta sinn EDL-MIMO, nýja óvissumatsaðferð sem blandar þeim báðum saman. Kjarni þessarar ritgerðar snýst um að bera saman gæði þessarar nýju aðferðar í samanburð við að nota EDL eða MIMO einar og sér. Machine Learning Deep Learning Uncertainty Estimation Evidential Deep Learning Computer Vision Maskininlärning Djupinlärning Osäkerhetsuppskattning Evidential Deep Learning Datorseende Vélnám Djúptauganet Óvissumat Evidential Deep Learning Tölvusjón Computer and Information Sciences Data- och informationsvetenskap
233	Tailored Query Resolution for Medical Data Interaction: Integrating LangChain4j, LLMs, and Retrieval Augmented Generation : Utilizing Real Time Embedding Techniques / Skräddarsydd Frågeupplösning för Interaktion med Medicinsk Data: Integrering av LangChain4j, LLMs och Hämtnings-Förstärkt Generation : Med realtidsinbäddningtekniker Tegsten, Samuel January 2024 (has links) Current artificial intelligence tools, including machine learning and large language models, display inabilities to interact with medical data in real time and raise privacy concerns related to user data management. This study illustrates the development of a system prototype using LangChain4j, which is an open-source project offering a multitude of AI-tools, including embedding tools, retrieval-augmented generation, and unified API:s for large language model providers. It was utilized to process medical data from a Neo4j database and enabled real-time interaction for that data. All content generation was generated locally to address privacy concerns, while using Apache Kafka for data distribution. The system prototype was evaluated by response time, resource consumption and accuracy assessment. Among the models assessed, LLaMA 3 emerged as the top performer in accuracy, successfully identifying 42.87% of all attributes with a correctness rate of 89.81%. Meanwhile, Phi3 exhibited superior outcomes in both resource consumption and response time. The embedding process, while enabling the selection of visible data, imposed limitations on general usability. In summary, this thesis advances data interaction using AI by developing a prototype that enables real-time interaction with medical data. It achieves high accuracy and efficient resource utilization while addressing limitations in current AI tools related to real-time processing and privacy concerns. / Nuvarande verktyg för artificiell intelligens, inklusive maskininlärning och stora språkmodeller, visar oförmåga att interagera med medicinska data i realtid och väcker integritetsproblem relaterade till hantering av användardata. Denna studie illustrerar utvecklingen av ett systemprototyp med LangChain4j, ett open-source-projekt som erbjuder en mängd AI-verktyg, inklusive inbäddningsverktyg, retrieval-augmented generation och enhetliga API för leverantörer av stora språkmodeller. Det användes för att bearbeta medicinska data från en Neo4j-databas och möjliggjorde realtidsinteraktion för dessa data. All innehållsgenerering skedde lokalt med Apache Kafka för datadistribution. Systemprototypen utvärderades utifrån svarstid, resursförbrukning och noggrannhetsbedömning. Bland de modeller som utvärderades visade sig LLaMA 3 vara den bästa presteraren i noggrannhet, och identifierade framgångsrikt 42,87 % av alla attribut med en korrekthet på 89,81 %. Samtidigt visade Phi3 överlägsna resultat både i resursförbrukning och svarstid. Inbäddningsprocessen, medan den möjliggjorde valet av synliga data, innebar begränsningar för allmän användbarhet. Sammanfattningsvis förbättrar denna avhandling datainteraktion med AI genom att utveckla en prototyp som möjliggör realtidsinteraktion med medicinska data. Den uppnår hög noggrannhet och effektiv resursanvändning samtidigt som den adresserar begränsningar i nuvarande AI-verktyg relaterade till realtidsbearbetning och integritetsproblem. Artificial intelligence machine learning large language models embedding models prompt engineering LangChain4J deep learning retrieval-augmented generation neural networks. Artificiell intelligens maskininlärning stora språkmodeller inbäddningsmo-deller prompt teknik LangChain4J djupinlärning återhämtningsförstärkt ge-nerering neurala nätverk. Software Engineering Programvaruteknik
234	Enhancing Drone Spectra Classification : A Study on Data-Adaptive Pre-processing and Efficient Hardware Deployment Del Gaizo, Dario January 2023 (has links) Focusing on the problem of Drone vs. Unknown classification based on radar frequency-amplitude spectra using Deep Learning (DL), especially 1-Dimensional Convolutional Neural Networks (1D-CNNs), this thesis aims at reducing the current gap in the research related to adequate pre-processing techniques for hardware deployment. The primary challenge tackled in this work is determining a pipeline that facilitates industrial deployment while maintaining high classification metrics. After presenting a comprehensive review of existing research on radar signal classification and the application of DL techniques in this domain, the technical background of signal processing is described to provide a practical scenario where the solutions could be implemented. A thorough description of technical constraints, such as Field Programmable Gate Array (FPGA) data type requirements, follows the entire project justifying the necessity of a learning-based pre-processing technique for highly skewed distributions. The results demonstrate that data-adaptive preprocessing eases hardware deployment and maintains high classification metrics, while other techniques contribute to noise and information loss. In conclusion, this thesis contributes to the field of radar frequency-amplitude spectra classification by identifying effective methods to support efficient hardware deployment of 1D-CNNs, without sacrificing performance. This work lays the foundation for future studies in the field of DL for real-world signal processing applications. / Med fokus på problemet med klassificering av drönare kontra okänt baserat på radarfrekvens-amplitudspektra med Deep Learning (DL), särskilt 1-Dimensional Convolutional Neural Networks (1D-CNNs), syftar denna avhandling till att minska det nuvarande gapet i forskningen relaterad till adekvata förbehandlingstekniker för hårdvarudistribution. Den främsta utmaningen i detta arbete är att fastställa en pipeline som underlättar industriell driftsättning samtidigt som höga klassificeringsmått bibehålls. Efter en omfattande genomgång av befintlig forskning om klassificering av radarsignaler och tillämpningen av DL-tekniker inom detta område, beskrivs den tekniska bakgrunden för signalbehandling för att ge ett praktiskt scenario där lösningarna kan implementeras. En grundlig beskrivning av tekniska begränsningar, såsom krav på datatyper för FPGA (Field Programmable Gate Array), följer hela projektet och motiverar nödvändigheten av en inlärningsbaserad förbehandlingsteknik för mycket skeva fördelningar. Resultaten visar att dataanpassad förbehandling underlättar hårdvaruimplementering och bibehåller höga klassificeringsmått, medan andra tekniker bidrar till brus och informationsförlust. Sammanfattningsvis bidrar denna avhandling till området klassificering av radarfrekvens-amplitudspektra genom att identifiera effektiva metoder för att stödja effektiv hårdvarudistribution av 1D-CNN, utan att offra prestanda. Detta arbete lägger grunden för framtida studier inom området DL för verkliga signalbehandlingstillämpningar. Deep Learning Adaptive Pre-processing 1D-CNN Radar Spectrum micro-Doppler Signal Processing Hardware Deployment Drone Unmanned Aerial Vehicle FPGA Djupinlärning Adaptiv Förbehandling 1D-CNN Radar Spektrum mikro-Doppler Signalbehandling Hårdvarudistribution Drönare Obemannad Luftfarkost FPGA Computer and Information Sciences Data- och informationsvetenskap
235	Evaluation of Pruning Algorithms for Activity Recognition on Embedded Machine Learning / Utvärdering av beskärningsalgoritmer för aktivitetsigenkänning på inbäddad maskininlärning Namazi, Amirhossein January 2023 (has links) With the advancement of neural networks and deep learning, the complexity and size of models have increased exponentially. On the other hand, advancements of internet of things (IoT) and sensor technology have opened for many embedded machine learning applications and projects. In many of these applications, the hardware has some constraints in terms of computational and memory resources. The always increasing popularity of these applications, require shrinking and compressing neural networks in order to satisfy the requirements. The frameworks and algorithms governing the compression of a neural network are commonly referred to as pruning algorithms. In this project several pruning frameworks are applied to different neural network architectures to better understand their effect on the performance as well as the size of the model. Through experimental evaluations and analysis, this thesis provides insights into the benefits and trade-offs of pruning algorithms in terms of size and performance, shedding light on their practicality and suitability for embedded machine learning. The findings contribute to the development of more efficient and optimized neural networks for resource constrained hardware, in real-world IoT applications such as wearable technology. / Med framstegen inom neurala nätverk och djupinlärning har modellernas komplexitet och storlek ökat exponentiellt. Samtidigt har framsteg inom Internet of Things (IoT) och sensorteknik öppnat upp för många inbyggda maskininlärningsapplikationer och projekt. I många av dessa applikationer finns det begränsningar i hårdvaran avseende beräknings- och minnesresurser. Den ständigt ökande populariteten hos dessa applikationer kräver att neurala nätverk minskas och komprimeras för att uppfylla kraven. Ramverken och algoritmerna som styr komprimeringen av ett neuralt nätverk kallas vanligtvis för beskärningsalgoritmer. I detta projekt tillämpas flera beskärningsramverk på olika neurala nätverksarkitekturer för att bättre förstå deras effekt på prestanda och modellens storlek. Genom experimentella utvärderingar och analys ger denna avhandling insikter om fördelarna och avvägningarna med beskärningsalgoritmer vad gäller storlek och prestanda, och belyser deras praktiska användbarhet och lämplighet för inbyggd maskininlärning. Resultaten bidrar till utvecklingen av mer effektiva och optimerade neurala nätverk för resursbegränsad hårdvara i verkliga IoT-applikationer, såsom bärbar teknik. Neural network pruning Deep learning Embedded machine learning IoT applications Model compression Beskärning av neurala nätverk Djupinlärning Inbyggd maskininlärning IoT-applikationer Modellkomprimering Computer and Information Sciences Data- och informationsvetenskap Computer Sciences Datavetenskap (datalogi)
236	Delineation of vegetated water through pre-trained convolutional networks / Konturteckning av vegeterat vatten genom förtränade konvolutionella nätverk Hansen, Johanna January 2024 (has links) In a world under the constant impact of global warming, wetlands are decreasing in size all across the globe. As the wetlands are a vital part of preventing global warming, the ability to prevent their shrinkage through restorative measures is critical. Continuously orbiting the Earth are satellites that can be used to monitor the wetlands by collecting images of them over time. In order to determine the size of a wetland, and to register if it is shrinking or not, deep learning models can be used. Especially useful for this task is convolutional neural networks (CNNs). This project uses one type of CNN, a U-Net, to segment vegetated water in satellite data. However, this task requires labeled data, which is expensive to generate and difficult to acquire. The model used therefore needs to be able to generate reliable results even on small data sets. Therefore, pre-training of the network is used with a large-scale natural image segmentation data set called Common Objects in Context (COCO). To transfer the satellite data into RGB images to use as input for the pre-trained network, three different methods are tried. Firstly, the commonly used linear transformation method which simply moves the value of radar data into the RGB feature space. Secondly, two convolutional layers are placed before the U-Net which gradually changes the number of channels of the input data, with weights trained through backpropagation during the fine-tuning of the segmentation model. Lastly, a convolutional auto-encoder is trained in the same way as the convolutional layers. The results show that the autoencoder does not perform very well, but that the linear transformation and convolutional layers methods each can outperform the other depending on the data set. No statistical significance can be shown however between the performance of the two latter. Experimenting with including different amounts of polarizations from Sentinel-1 and bands from Sentinel-2 showed that only using radar data gave the best results. It remains to be determined whether one or both of the polarizations should be included to achieve the best result. / I en värld som ständigt påverkas av den globala uppvärmningen, minskar våtmarkerna i storlek över hela världen. Eftersom våtmarkerna är en viktig del i att förhindra global uppvärmning, är förmågan att förhindra att de krymper genom återställande åtgärder kritisk. Kontinuerligt kretsande runt jorden finns satelliter som kan användas för att övervaka våtmarkerna genom att samla in bilder av dem över tid. För att bestämma storleken på en våtmark, i syfte att registrera om den krymper eller inte, kan djupinlärningsmodeller användas. Speciellt användbar för denna uppgift är konvolutionella neurala nätverk (CNN). Detta projekt använder en typ av CNN, ett U-Net, för att segmentera vegeterat vatten i satellitdata. Denna uppgift kräver dock märkt data, vilket är dyrt att generera och svårt att få tag på. Modellen som används behöver därför kunna generera pålitliga resultat även med små datauppsättning. Därför används förträning av nätverket med en storskalig naturlig bildsegmenteringsdatauppsättning som kallas Common Objects in Context (COCO). För att överföra satellitdata till RGB-bilder som ska användas som indata för det förtränade nätverket prövas tre olika metoder. För det första, den vanliga linjära transformationsmetoden som helt enkelt flyttar värdet av radardatan till RGB-funktionsutrymmet. För det andra två konvolutionella lager placerade före U-Net:et som gradvis ändrar mängden kanaler i indatan, med vikter tränade genom bakåtpropagering under finjusteringen av segmenteringsmodellen. Slutligen tränade en konvolutionell auto encoder på samma sätt som de konvolutionella lagren. Resultaten visar att auto encodern inte fungerar särskilt bra, men att metoderna för linjär transformation och konvolutionella lager var och en kan överträffa den andra beroende på datauppsättningen. Ingen statistisk signifikans kan dock visas mellan prestationen för de två senare. Experiment med att inkludera olika mängder av polariseringar från Sentinell-1 och band från Sentinell-2 visade att endast användning av radardata gav de bästa resultaten. Om att inkludera båda polariseringarna eller bara en är den mest lämpliga återstår fortfarande att fastställa. Wetland delineation Satellite image segmentation Convolutional neural networks Pre-training Deep learning Remote sensing Avgränsning av våtmarker Segmentering av satellitbilder Konvolutionella neurala nätverk Förträning Djupinlärning Fjärranalys Computer Sciences Datavetenskap (datalogi)
237	Hierarchical Control of Simulated Aircraft / Hierarkisk kontroll av simulerade flygplan Mannberg, Noah January 2023 (has links) This thesis investigates the effectiveness of employing pretraining and a discrete "control signal" bottleneck layer in a neural network trained in aircraft navigation through deep reinforcement learning. The study defines two distinct tasks to assess the efficacy of this approach. The first task is utilized for pretraining specific parts of the network, while the second task evaluates the potential benefits of this technique. The experimental findings indicate that the network successfully learned three main macro actions during pretraining. flying straight ahead, turning left, and turning right, and achieved high rewards on the task. However, utilizing the pretrained network on the transfer task yielded poor performance, possibly due to the limited effective action space or deficiencies in the training process. The study discusses several potential solutions, such as incorporating multiple pretraining tasks and alterations of the training process as avenues for future research. Overall, this study highlights the challanges and opportunities associated with combining pretraining with a discrete bottleneck layer in the context of simulated aircraft navigation using reinforcement learning. / Denna studie undersöker effektiviteten av att använda förträning och en diskret "styrsignal" som fungerar som flaskhals i ett neuralt nätverk tränat i flygnavigering med hjälp av djup förstärkande inlärning. Studien definierar två olika uppgifter för att bedöma effektiviteten hos denna metod. Den första uppgiften används för att förträna specifika delar at nätverket, medan den andra uppgiften utvärderar de potentiella fördelarna med denna teknik. De experimentella resultaten indikerar att nätverket framgångsrikt lärde sig tre huvudsakliga makrohandlingar under förträningen: att flyga rakt fram, att svänga vänster och att svänga höger, och uppnådde höga belöningar för uppgiften. Men att använda det förtränade nätverket för den uppföljande uppgiften gav dålig prestation, möjligen på grund av det begränsade effektiva handlingsutrymmet eller begränsningar i träningsprocessen. Studien diskuterar flera potentiella lösningar, såsom att inkorporera flera förträningsuppgifter och ändringar i träningsprocessen, som möjliga framtida forskningsvägar. Sammantaget belyser denna studie de utmaningar och möjligheter som är förknippade med att kombinera förträning med ett diskret flaskhalslager inom kontexten av simulerad flygnavigering och förstärkningsinlärning. Reinforcement Learning Deep Learning Pretraining Transfer Learning Aircraft Beyond Visual Range Flight Dynamics Computer Generated Forces Long Short-Term Memory Förstärkningsinlärning Djupinlärning Förträning Överföringsinlärning Flygplan Beyond Visual Range Flygdynamik Datorgenererade styrkor Long Short-Term Memory Other Mathematics Annan matematik
238	Combining Trajectory with Temporal Appearance Features for Joint Detection and Tracking of Drones / Kombinering av trajektoria med utseende över tid för att upptäcka och spåra drönare Puranen Åhfeldt, Theo January 2024 (has links) As drones are becoming ubiquitous, robust detection and tracking of potentially hostile drones is becoming a necessity. Among the many approaches being investigated in this relatively new research area, one cost effective option is the use of optical cameras equipped with computer vision algorithms. With the use of deep learning, it becomes possible to achieve high accuracy by generalizing from large datasets. However, drones are small and visually similar to birds, which has proven to be a major difficulty for purely vision based systems. This thesis investigates the utility of trajectory information (velocity and acceleration) in addition to temporal appearance features for detection and tracking of drones. While both kinds of information has been used in a variation of ways, work combining the two is largely lacking. Our approach uses background subtraction to generate candidate objects that initialize an LSTM which in turn combines trajectory and appearance information over multiple frames for joint detection and tracking of drones. While our specific implementation fails to outperform a traditional object detector in the form of YOLOv8, this could change with the solution of two problems identified with our approach. First problem being how to effectively incorporate large amounts of background data into the training of our network. Second being how to avoid repeatedly proposing the same non-drone candidates, while still being able to quickly resume tracking of a lost drone. / I takt med att drönare blir allt vanligare stiger kraven på robusta system som kan upptäcka och spåra hotfulla drönare. Bland de flertal tillvägagångssätt som undersöks i detta relativt nya forskningsområde är användandet av optiska kameror utrustade med datorseende-algoritmer ett kostnadseffektivt val. Genom användningen av djupinlärning har det blivit möjligt att uppnå hög pricksäkerhet genom att generalisera utifrån stora dataset. Men, drönare är små och utseendemässigt sett lika fåglar vilket är ett svåröverkomligt problem för system som endast förlitar sig på datorseende. I detta examensarbete undersöks vilken nytta som kan fås om man även tar hänsyn till information om drönarens trajektoria i form av hastighet och acceleration. Trots att både visuellt utseende och trajektoria är välstuderat när det kommer till drönardetektering, saknas det till stor del forskning som behandlar båda tillsammans. Vi använder bakgrundssubtraktion för att generera kandidater som startpunkt för en LSTM för att sedan kombinera trajektoria med utseende för förenad detektering och spårning av drönare. Fastän vår specifika implementation inte lyckas överträffa en traditionell objektdetekterare i form av YOLOv8, skulle detta kunna ändras givet en lösning på två identifierade problem med vårt tillvägagångssätt. Det första problemet är att hitta ett effektivt sätt att inkorporera stora mängder bakgrundsdata i träningen av vårt nätverk. Det andra är att undvika att gång på gång föreslå samma kandidater och samtidigt kunna snabbt återuppta spårningen av en förlorad drönare. Unmanned aerial vehicle Drone detection Trajectory-based Background subtraction Joint detection and tracking Computer vision Deeplearning Drönare Drönardetektering Trajektoria-baserad Bakgrundssubtraktion Förenad detektering och spårning Datorseende Djupinlärning Computer Sciences Datavetenskap (datalogi) Computer Engineering Datorteknik
239	Event-Cap – Event Ranking and Transformer-based Video Captioning / Event-Cap – Event rankning och transformerbaserad video captioning Cederqvist, Gabriel, Gustafsson, Henrik January 2024 (has links) In the field of video surveillance, vast amounts of data are gathered each day. To be able to identify what occurred during a recorded session, a human annotator has to go through the footage and annotate the different events. This is a tedious and expensive process that takes up a large amount of time. With the rise of machine learning and in particular deep learning, the field of both image and video captioning has seen large improvements. Contrastive Language-Image Pretraining is capable of efficiently learning a multimodal space, thus able to merge the understanding of text and images. This enables visual features to be extracted and processed into text describing the visual content. This thesis presents a system for extracting and ranking important events from surveillance videos as well as a way of automatically generating a description of the event. By utilizing the pre-trained models X-CLIP and GPT-2 to extract visual information from the videos and process it into text, a video captioning model was created that requires very little training. Additionally, the ranking system was implemented to extract important parts in video, utilizing anomaly detection as well as polynomial regression. Captions were evaluated using the metrics BLEU, METEOR, ROUGE and CIDEr, and the model receives scores comparable to other video captioning models. Additionally, captions were evaluated by experts in the field of video surveillance, who rated them on accuracy, reaching up to 62.9%, and semantic quality, reaching 99.2%. Furthermore the ranking system was also evaluated by the experts, where they agree with the ranking system 78% of the time. / Inom videoövervakning samlas stora mängder data in varje dag. För att kunna identifiera vad som händer i en inspelad övervakningsvideo så måste en människa gå igenom och annotera de olika händelserna. Detta är en långsam och dyr process som tar upp mycket tid. Under de senaste åren har det setts en enorm ökning av användandet av olika maskininlärningsmodeller. Djupinlärningsmodeller har fått stor framgång när det kommer till att generera korrekt och trovärdig text. De har också använts för att generera beskrivningar för både bilder och video. Contrastive Language-Image Pre-training har gjort det möjligt att träna en multimodal rymd som kombinerar förståelsen av text och bild. Detta gör det möjligt att extrahera visuell information och skapa textbeskrivningar. Denna master uppsatts beskriver ett system som kan extrahera och ranka viktiga händelser i en övervakningsvideo samt ett automatiskt sätt att generera beskrivningar till dessa. Genom att använda de förtränade modellerna X-CLIP och GPT-2 för att extrahera visuell information och textgenerering, har en videobeskrivningsmodell skapats som endast behöver en liten mängd träning. Dessutom har ett rankingsystem implementerats för att extrahera de viktiga delarna i en video genom att använda anomalidetektion och polynomregression. Video beskrivningarna utvärderades med måtten BLEU, METOER, ROUGE och CIDEr, där modellerna får resultat i klass med andra videobeskrivningsmodeller. Fortsättningsvis utvärderades beskrivningarna också av experter inom videoövervakningsområdet där de fick besvara hur bra beskrivningarna var i måtten: beskrivningsprecision som uppnådde 62.9% och semantisk kvalité som uppnådde 99.2%. Ranknignssystemet utvärderades också av experterna. Deras åsikter överensstämde till 78% med rankningssystemet. Transformer Fine-tuning Deep Learning Machine Learning NLP Video Text GPT GPT-2 Computer Vision Vision Transformer CLIP XCLIP Axis communications video-to-text captioning video captioning anomaly detection automatic annotation Pipeline Maskininlärning text video djupinlärning Media and Communication Technology Medieteknik
240	From Traditional to Explainable AI-Driven Predictive Maintenance : Transforming Maintenance Strategies at Glada Hudikhem with AI and Explainable AI Rajta, Amarildo January 2024 (has links) Detta arbete undersöker integreringen av artificiell intelligens (AI) och maskininlärning (ML) teknologier i prediktivt underhåll (PdM) vid Glada Hudikhem. De primära målen är att utvärdera effektiviteten hos olika AI/ML-modeller för att förutsäga fel på hushållsapparater och att förbättra transparensen och tillförlitligheten i dessa förutsägelser genom förklarbar AI (XAI) teknik. Studien jämför olika grundläggande och djupa inlärningsmodeller och avslöjar att medan djupa modeller kräver mer beräkningsresurser och kan ta 98% mer tid att träna jämfört med grundläggande modeller, presterar de ungefär 1, 4% sämre i F-1 poäng. F-1-poäng är ett mått som kombinerar precision (andelen av sanna positiva bland förväntade positiva) och recall/återkallelse (andelen av sanna positiva bland faktiska positiva). Dessutom betonar studien vikten av XAI för att göra AI-drivna underhållsbeslut mer transparenta och pålitliga, vilket därmed adresserar den "svarta lådan" naturen hos traditionella AI-modeller. Resultaten tyder på att integrationen av AI och XAI i PdM kan förbättra underhållsarbetsflöden och minska driftkostnaderna, med rekommendationer för branschpartners att utforska AI/ML-lösningar som balanserar resurseffektivitet och prestanda. Studien diskuterar också de etiska och samhälleliga konsekvenserna av AI-antagande och prediktivt underhåll, med betoning av ansvarsfull implementering. Vidare beskriver potentialen för AI att automatisera rutinunderhållsuppgifter, vilket frigör mänskliga resurser för mer komplexa frågor och förbättrar den övergripande drifteffektiviteten. Genom en omfattande analys, ger det här arbetet ett ramverk för framtida forskning och praktiska tillämpningar inom AI-drivet prediktivt underhåll. / This thesis investigates the integration of artificial intelligence (AI) and machine learning (ML) technologies into predictive maintenance (PdM) operations at Glada Hudikhem. The primary objectives are to evaluate the effectiveness of different AI/ML models for predicting household appliance failures and to enhance the transparency and reliability of these predictions through explainable AI (XAI) techniques. The study compares various shallow and deep learning models, revealing that while deep models require more computational resources and can take 98% more time to train compared to shallow models, they score about 1.4% worse in F-1 scores. F-1 scores are a metric that combines precision (the fraction of true positives among predicted positives) and recall (the fraction of true positives among actual positives). Additionally, the research highlights the importance of XAI in making AI-driven maintenance decisions more transparent and trustworthy, thus addressing the "black box" nature of traditional AI models. The findings suggest that integrating AI and XAI into PdM can improve maintenance workflows and reduce operational costs, with recommendations for industry partners to explore AI/ML solutions that balance resource efficiency and performance. The study also discusses the ethical and societal implications of AI adoption in predictive maintenance, emphasizing the need for responsible implementation. Furthermore, it outlines the potential for AI to automate routine maintenance tasks, thereby freeing up human resources for more complex issues and enhancing overall operational efficiency. Through a rigorous discussion and in-depth analysis, this thesis offers a robust framework for future research and practical applications in the field of AI-driven predictive maintenance. Artificial Intelligence Machine Learning Predictive Maintenance Explainable AI Deep Learning Shallow Models Transparency Operational Efficiency Artificiell intelligens Maskininlärning Prediktivt underhåll Förklarbar AI Djupinlärning Transparens Operativ effektivitet Software Engineering Programvaruteknik

Search results