Detekce objektů pomocí Kinectu / Object Detection Using KinectŘehánek, Martin January 2012 (has links)
With the release of the Kinect device new possibilities appeared, allowing a simple use of image depth in image processing. The aim of this thesis is to propose a method for object detection and recognition in a depth map. Well known method Bag of Words and a descriptor based on Spin Image method are used for the object recognition. The Spin Image method is one of several existing approaches to depth map which are described in this thesis. Detection of object in picture is ensured by the sliding window technique. That is improved and speeded up by utilization of the depth information.
Matching Sticky Notes Using Latent Representations / Matchning av klisterlappar med hjälp av latent representationGarcía San Vicent, Javier January 2022 (has links)
his project addresses the issue of accurately identifying repeated images of sticky notes. Due to environmental conditions and the 3D location of the camera, different pictures taken of sticky notes may look distinct enough to be hard to determine if they belong to the same note. More specifically, this thesis aims to create latent representations of these pictures of sticky notes to encode their content so that all the pictures of the same note have a similar representation that allows to identify them. Thus, those representations must be invariant to light conditions, blur and camera position. To that end, a Siamese neural architecture will be trained based on data augmentation methods. The method consists of learning to embed two augmented versions of the same image into similar representations. This architecture has been trained with unsupervised learning and fine-tuned with supervised learning to detect if two representations belong or not to the same note. The performance of ResNet, EfficientNet and Vision Transformers in encoding the images into their representations has been compared with different configurations. The results show that, while the most complex models overfit small amounts of data, the simplest encoders are capable of properly identifying more than 95% of the sticky notes in grey scale. Those models can create invariant representations that are close to each other in the latent space for pictures of the same sticky note. Gathering more data could result in an improvement of the performance of the model and the possibility of applying it to other fields such as handwritten documents. / Detta projekt tar upp frågan om att identifiera upprepade bilder av klisterlappar. På grund av miljöförhållanden och kamerans 3D-placering kan olika bilder som tagits till klisterlappar se tillräckligt distinkta ut för att det ska vara svårt att avgöra om de faktiskt tillhör samma klisterlappar. Mer specifikt är syftet med denna avhandling att skapa latenta representationer av bilder av klisterlappar som kodar deras innehåll, så att alla bilder av en klisterlapp har en liknande representation som gör det möjligt att identifiera dem. Sålunda måste representationerna vara oföränderliga för ljusförhållanden, oskärpa och kameraposition. För det ändamålet kommer en enkel siamesisk neural arkitektur att tränas baserad på dataförstärkningsmetoder. Metoden går ut på att lära sig att göra representationerna av två förstärkta versioner av en bild så lika som möjligt. Genomatt tillämpa vissa förbättringar av arkitekturen kan oövervakat lärande användas för att träna nätverket. Prestandan hos ResNet, EfficientNet och Vision Transformers när det gäller att koda bilderna till deras representationer har jämförts med olika konfigurationer. Resultaten visar att även om de mest komplexa modellerna överpassar små mängder data, kan de enklaste kodarna korrekt identifiera mer än 95% av klisterlapparna. Dessa modeller kan skapa oföränderliga representationer som är nära i det latenta utrymmet för bilder av samma klisterlapp. Att samla in mer data kan resultera i en förbättring av modellens prestanda och möjligheten att tillämpa den på andra områden som till exempel handskrivna dokument.
Mobilní aplikace využívající hlubokých konvolučních neuronových sítí / Mobile Application Using Deep Convolutional Neural NetworksPoliak, Sebastián January 2018 (has links)
This thesis describes a process of creating a mobile application using deep convolutional neural networks. The process starts with proposal of the main idea, followed by product and technical design, implementation and evaluation. The thesis also explores the technical background of image recognition, and chooses the most suitable options for the purpose of the application. These are object detection and multi-label classification, which are both implemented, evaluated and compared. The resulting application tries to bring value from both user and technical point of view.
Detekce vad vláknitého materiálu užitím metod strojového učení / Defect detection on fiber materials using machine learningLang, Matěj January 2019 (has links)
Cílem této diplomové práce je automatizace detekce vad ve vláknitých materiálech. Firma SILON se již přes padesát let zabývá výrobou jemné vaty z recyklovaných PET lahví. Tato vata se následně používá ve stavebnictví, automobilovém průmyslu, ale nejčastěji v dámských hygienických potřebách a dětských plenách. Cílem firmy je produkovat co nejkvalitnější výrobek a proto je každá dávka testována v laboratoři s několika přísnými kritérii. Jednám z testů je i množství vadných vláken, jako jsou zacuchané smotky vláken, nebo nevydloužená vlákna, která jsou tvrdá a snadno se lámou. Navrhovaný systém sestává ze snímací lavice fungující jako scanner, která nasnímá vzorek vláken, který byl vložen mezi dvě skleněné desky. Byla provedena série testů s různým osvětlením, která ověřovala vlastnosti Rhodaminu, který se používá právě na rozlišení defektů od ostatních vláken. Tyto defekty mají zpravidla jinou molekulární strukturu, na kterou se barvivo chytá lépe. Protože je Rhodamin fluorescenční barvivo, je možné ho například pod UV světlem snáze rozeznat. Tento postup je využíván při manuální detekci. Při snímání kamerou je možno si vypomoci filtrem na kameře, který odfiltruje excitační světlo a propustí pouze světlo vyzářené Rhodaminem. Součástí výroby skeneru byla i tvorba ovládacího programu. Byla vytvořena vlastní knihovna pro ovládání motoru a byla upravena knihovna pro kameru. Oba systém pak bylo možno ovládat pomocí jednotného GUI, které zajišťovalo pořizování snímku celé desky. Pomocí skeneru byla nasnímána řada snímků, které bylo třeba anotovat, aby bylo možné naučit počítač rozlišovat defekty. Anotace proběhla na pixelové úrovni; každý defekt byl označen v grafickém editoru ve speciální vrstvě. Pro rozlišování byla použita umělá neuronová síť, která funguje na principu konvolucí. Tento typ sítě je navíc plně konvoluční, takže výstupem sítě je obraz, který by měl označit na tom původním vadné pixely. Výsledky naučené sítě jsou v práci prezentovány a diskutovány. Síť byla schopna se naučit rozeznávat většinu defektů a spolehlivě je umí rozeznat a segmentovat. Potíže má v současné době s detekcí rozmazaných defektů na krajích zorného pole a s defekty, jejichž hranice není tolik zřetelná na vstupních obrazech. Nutno zmínit, že zákazník má zájem o kompletní řešení scanneru i s detekčním softwarem a vývoj tohoto zařízení bude pokračovat i po závěru této diplomové práce.
Machine Learning im CAEThieme, Cornelia 24 May 2023 (has links)
Many companies have a large collection of different model variants and results. Hexagon's (formerly MSC Software) software Odyssee helps to find out what information is contained in this data. New calculations can sometimes be avoided because the results for new parameter combinations can be predicted from the existing calculations. This is particularly interesting for non-linear or large models with long run times. The software also helps when setting up new DOEs and offers a variety of options for statistical displays. In the lecture, the number-based and image-based methods are compared. / Viele Firmen können auf eine große Sammlung vorhandener Rechnungen für verschiedene Modellvarianten zurückgreifen. Die Software Odyssee von Hexagon (früher MSC Software) hilft herauszufinden, welche Informationen in diesen Daten stecken. Neue Rechnungen kann man sich teilweise ersparen, weil die Ergebnisse für neue Parameterkombinationen aus den vorhandenen Rechnungen vorhergesagt werden können.
Dies ist besonders interessant für nichtlineare oder große Modelle mit langer Rechenzeit. Die Software hilft auch beim Aufsetzen neuer DOEs und bietet vielfältige Möglichkeiten für statistische Darstellungen. In dem Vortrag werden die zahlenbasierte und bildbasierte Methode gegenübergestellt.
SkeMo: A Web Application for Real-time Sketch-based Software ModelingSharma Chapai, Alisha 19 July 2023 (has links)
Generische Verkettung maschineller Ansätze der Bilderkennung durch Wissenstransfer in verteilten Systemen: Am Beispiel der Aufgabengebiete INS und ACTEv der Evaluationskampagne TRECVidRoschke, Christian 08 November 2021 (has links)
Der technologische Fortschritt im Bereich multimedialer Sensorik und zugehörigen Methoden zur Datenaufzeichnung, Datenhaltung und -verarbeitung führt im Big Data-Umfeld zu immensen Datenbeständen in Mediatheken und Wissensmanagementsystemen. Zugrundliegende State of the Art-Verarbeitungsalgorithmen werden oftmals problemorientiert entwickelt. Aufgrund der enormen Datenmengen lassen sich nur bedingt zuverlässig Rückschlüsse auf Güte und Anwendbarkeit ziehen. So gestaltet sich auch die intellektuelle Erschließung von großen Korpora schwierig, da die Datenmenge für valide Aussagen nahezu vollumfänglich semi-intellektuell zu prüfen wäre, was spezifisches Fachwissen aus der zugrundeliegenden Datendomäne ebenso voraussetzt wie zugehöriges Verständnis für Datenhandling und Klassifikationsprozesse. Ferner gehen damit gesonderte Anforderungen an Hard- und Software einher, welche in der Regel suboptimal skalieren, da diese zumeist auf Multi-Kern-Rechnern entwickelt und ausgeführt werden, ohne dabei eine notwendige Verteilung vorzusehen. Folglich fehlen Mechanismen, um die Übertragbarkeit der Verfahren auf andere Anwendungsdomänen zu gewährleisten. Die vorliegende Arbeit nimmt sich diesen Herausforderungen an und fokussiert auf die Konzeptionierung und Entwicklung einer verteilten holistischen Infrastruktur, die die automatisierte Verarbeitung multimedialer Daten im Sinne der Merkmalsextraktion, Datenfusion und Metadatensuche innerhalb eines homogenen Systems ermöglicht.
Der Fokus der vorliegenden Arbeit liegt in der Konzeptionierung und Entwicklung einer verteilten holistischen Infrastruktur, die die automatisierte Verarbeitung multimedialer Daten im Sinne der Merkmalsextraktion, Datenfusion und Metadatensuche innerhalb eines homogenen aber zugleich verteilten Systems ermöglicht. Dabei sind Ansätze aus den Domänen des Maschinellen Lernens, der Verteilten Systeme, des Datenmanagements und der Virtualisierung zielführend miteinander zu verknüpfen, um auf große Datenmengen angewendet, evaluiert und optimiert werden zu können. Diesbezüglich sind insbesondere aktuelle Technologien und Frameworks zur Detektion von Mustern zu analysieren und einer Leistungsbewertung zu unterziehen, so dass ein Kriterienkatalog ableitbar ist. Die so ermittelten Kriterien bilden die Grundlage für eine Anforderungsanalyse und die Konzeptionierung der notwendigen Infrastruktur. Diese Architektur bildet die Grundlage für Experimente im Big Data-Umfeld in kontextspezifischen Anwendungsfällen aus wissenschaftlichen Evaluationskampagnen, wie beispielsweise TRECVid. Hierzu wird die generische Applizierbarkeit in den beiden Aufgabenfeldern Instance Search und Activity in Extended Videos eruiert.:Abbildungsverzeichnis
1 Motivation
2 Methoden und Strategien
3 Systemarchitektur
4 Instance Search
5 Activities in Extended Video
6 Zusammenfassung und Ausblick
Literaturverzeichnis / Technological advances in the field of multimedia sensing and related methods for data acquisition, storage, and processing are leading to immense amounts of data in media libraries and knowledge management systems in the Big Data environment. The underlying modern processing algorithms are often developed in a problem-oriented manner. Due to the enormous amounts of data, reliable statements about quality and applicability can only be made to a limited extent. Thus, the intellectual exploitation of large corpora is also difficult, as the data volume would have to be analyzed for valid statements, which requires specific expertise from the underlying data domain as well as a corresponding understanding of data handling and classification processes. In addition, there are separate requirements for hardware and software, which usually scale in a suboptimal manner while being developed and executed on multicore computers without provision for the required distribution. Consequently, there is a lack of mechanisms to ensure the transferability of the methods to other application domains.
The focus of this work is the design and development of a distributed holistic infrastructure that enables the automated processing of multimedia data in terms of feature extraction, data fusion, and metadata search within a homogeneous and simultaneously distributed system. In this context, approaches from the areas of machine learning, distributed systems, data management, and virtualization are combined in order to be applicable on to large data sets followed by evaluation and optimization procedures. In particular, current technologies and frameworks for pattern recognition are to be analyzed and subjected to a performance evaluation so that a catalog of criteria can be derived. The criteria identified in this way form the basis for a requirements analysis and the conceptual design of the infrastructure required. This architecture builds the base for experiments in the Big Data environment in context-specific use cases from scientific evaluation campaigns, such as TRECVid. For this purpose, the generic applicability in the two task areas Instance Search and Activity in Extended Videos is elicited.:Abbildungsverzeichnis
1 Motivation
2 Methoden und Strategien
3 Systemarchitektur
4 Instance Search
5 Activities in Extended Video
6 Zusammenfassung und Ausblick
Effektivisering av Tillverkningsprocesser med Artificiell Intelligens : Minskad Materialförbrukning och Förbättrad KvalitetskontrollAl-Saaid, Kasim, Holm, Daniel January 2024 (has links)
This report explores the implementation of AI techniques in the manufacturing process at Ovako, focusing on process optimization, individual traceability, and quality control. By integrating advanced AI models and techniques at various levels within the production process, Ovako can improve efficiency, reduce material consumption, and prevent production stops. For example, predictive maintenance can be applied to anticipate and prevent machine problems, while image recognition algorithms and optical character recognition enable individual traceability of each rod throughout the process. Furthermore, AI-based quality control can detect defects and deviations with high precision and speed, leading to reduced risk of faulty products and increased product quality. By carefully considering the role of the workforce, safety and ethical issues, and the benefits and challenges of AI implementation, Ovako can maximize the benefits of these techniques and enhance its competitiveness in the market. / Denna rapport utforskar implementeringen av AI-tekniker i tillverkningsprocessen hos Ovako, med fokus på processoptimering, individuell spårbarhet och kvalitetskontroll. Genom att integrera avancerade AI-modeller och tekniker på olika nivåer inom produktionsprocessen kan Ovako förbättra effektiviteten, minska materialförbrukningen och förhindra produktionsstopp. Exempelvis kan prediktivt underhåll tillämpas för att förutse och förebygga maskinproblem, medan bildigenkänningsalgoritmer och optisk teckenigenkänning möjliggör individuell spårbarhet av varje stång genom processen. Dessutom kan AI-baserad kvalitetskontroll detektera defekter och avvikelser med hög precision och hastighet, vilket leder till minskad risk för felaktiga produkter och ökad produktkvalitet. Genom att noggrant överväga arbetskraftens roll, säkerhets- och etikfrågor samt fördelarna och utmaningarna med AI-implementeringen kan Ovako maximera nyttan av dessa tekniker och förbättra sin konkurrenskraft på marknaden.
