• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Automated Image Pre-Processing for Optimized Text Extraction Using Reinforcement Learning and Genetic Algorithms

Rohoullah, Rahmat, Joakim, Månsson January 2023 (has links)
This project aims to develop an automated image pre-processing chain to extract valuable information from appliance labels before recycling. The primary goal is to improve optical character recognition accuracy by addressing noise issues using reinforcement learning and an evolutionary algorithm. Python was selected as the primary programming language for this project due to its extensive support for machine learning and computer vision libraries. Different techniques are implemented to enhance text extraction from labels. Binary Robust Invariant Scalable Keypoints (BRISK) are used to straighten labels and separate the label from the background. You Only Look Once version 8x (YOLOv8x) is then used for extracting the regions containing the text of interest. The reinforcement learning model and genetic algorithm dataset are created using BRISK with YOLOv8x. The results showed that pre-processing images in the dataset, provided through BRISK and YOLOv8x, does not affect text extraction accuracy, as suggested by reinforcement learning and evolutionary algorithms. / Detta projekt syftar till att utveckla en automatiserad bildförbehandlingskedja för att extrahera värdefull information från apparatmärken före återvinning. Det primära målet är att förbättra noggrannheten för optisk teckenigenkänning genom att hantera brusproblem med hjälp av förstärkningsinlärning och en evolutionär algoritm. Python valdes som det primära programmeringsspråket för detta projekt på grund av dess omfattande stöd för maskininlärnings- och datorseendebibliotek. Olika tekniker implementeras för att förbättra textutvinningen från etiketterna. Binary Robust Invariant Scalable Keypoints (BRISK) används för att räta ut etiketter och separera etiketten från bakgrunden. You Only Look Once version 8x (YOLOv8x) används sedan för att extrahera områden som innehåller den önskade texten. Datasetet för förstärkningsinlärningsmodellen och den genetiska algoritmen skapas genom att använda BRISK med YOLOv8x. Resultaten visade att förbehandlingen av bilder i datasetet, som tillhandahålls genom BRISK och YOLOv8x, inte påverkar noggrannheten för textutvinning, som föreslagits av förstärkningsinlärning och evolutionära algoritmer.

Page generated in 0.072 seconds