Spelling suggestions: "subject:"teckenigenkänning"" "subject:"teckenigenkänning""
1 |
Applikation för scanning av körkortsinformation : Informationen lagras med Microsoft Azure / Application for scanning driver license information : Information stored with Microsoft AzureWarnestad, Hannes, Aronsson, Martin January 2020 (has links)
Sedan den nya personuppgiftslagen, GDPR, trädde i kraft har större krav ställts på organisationer gällande hantering av personlig data. När processer inom en organisation ska digitaliseras, ställs högre krav på säkerheten av data. Ett bilföretag i Karlstad fick som krav från en av sina leverantörer att digitalisera sin provkörningsprocess, som tidigare var pappersbunden. Genom att automatisera processen och lagringen av data säkerställs det att detta hanteras korrekt. En lösning var att skapa en mobil applikation som skannar in körkort och sparar kunddata i en databas. Applikationen utvecklades för att uppfylla företagets krav samt de regelverk som GDPR innebär för digitala lösningar som hanterar känslig persondata. Applikationen skapades med hjälp av Xamarin i Visual Studio med fokus på Android applikationer. Data sparas i en molndatabas hos Microsoft Azure. I rapporten presenteras applikationens metoder och hur de samspelar för att ge den önskade funktionaliteten. I resultatet beskrivs också vilka krav som har uppfyllts. / Since the new General Data Protection Regulation (GDPR) came into force, greater demands have been placed on organizations regarding the handling of personal data. When digitalizing processes within an organization, higher demands are placed on data security. A car company in Karlstad was required by one of its suppliers to digitalize their test driving process, which was previously paper bound. By automating the process and storing the data, it is ensured that this is handled correctly. One solution was to create a mobile application that scans driving licenses and saves customer data in a database. The application was developed to meet the company’s requirements as well as the regulations that GDPR imposes on digital solutions that handle sensitive personal data. The application was created using Xamarin in Visual Studio focusing on Android applications. Data is stored in a cloud database at Microsoft Azure. The report presents the application’s methods and how they interact to provide the desired functionality. The result also describes what requirements have been met
|
2 |
En undersökning av metoder förautomatiserad text ochparameterextraktion frånPDF-dokument med NaturalLanguage Processing / An investigation of methods forautomated text and parameterextraction from PDF documentsusing Natural LanguageProcessingVärling, Alexander, Hultgren, Emil January 2024 (has links)
I dagens affärsmiljö strävar många organisationer efter att automatisera processen för att hämta information från fakturor. Målet är att göra hanteringen av stora mängder fakturor mer effektiv. Trots detta möter man utmaningar på grund av den varierande strukturen hos fakturor. Placeringen och formatet för information kan variera betydligt mellan olika fakturor, vilket skapar komplexitet och hinder vid automatiserad utvinning av fakturainformation. Dessa utmaningar kan påverka noggrannheten och effektiviteten i processen. Förmågan att navigera genom dessa utmaningar blir därmed avgörande för att framgångsrikt implementera automatiserade system för hantering av fakturor. Detta arbete utforskar fyra olika textextraktions metoder som använder optisk teckenigenkänning, bildbehandling, vanlig textextraktion och textbearbetning, följt av en jämförelse mellan de naturliga språkbehandlingsmodellerna GPT- 3.5 (Generative Pre-trained Transformer) och GPT-4 för parameterextraktion av fakturor. Dessa modeller testades på sin förmåga att extrahera åtta specifika fält i PDF-dokument, sedan jämfördes deras resultat. Resultatet presenteras med valideringsmetoden ”Micro F1-poäng” en skala mellan 0 till 1, där 1 är en perfekt extraktion. Metoden som använde GPT-4 visade sig vara mest framgångsrik, som gav ett resultat på 0.98 och felfri extraktion i sex av åtta fält när den testades på 19 PDF-dokument. GPT 3.5 kom på andraplats och visade lovande resultat i fyra av de åtta fält, men presterade inte lika bra i de återstående fält, vilket resulterade i ett Micro F1-poäng på 0.71. På grund av det begränsade datamängden kunde GPT 3.5 inte uppnå sin fulla potential, eftersom finjustering och validering kräver större datamängder. Likaså behöver GPT-4 valideras med ett mer omfattande dataset för att kunna dra slutsatser om modellernas faktiska prestanda. Ytterligare forskning är nödvändig för att fastställa GPT-modellernas kapacitet med dessa förbättringar. / In today’s business environment, many organizations aim to automate the process of extracting information from invoices with the goal of making the management of large volumes of invoices more efficient. However, challenges arise due to the varied structure of invoices. The placement and format of information can significantly differ between different invoices, creating complexity and obstacles in the automated extraction of invoice information. These challenges can impact the accuracy and efficiency of the process, making the ability to navigate through them crucial for the successful implementation of automated systems for invoice management. This work explores four different text extraction methods that use optical character recognition, image processing, plain text extraction, and text processing, followed by a comparison between the natural language processing models GPT-3.5 (Generative Pre-trained Transformer) and GPT-4 for parameter extraction of invoices. These models were tested on their ability to extract eight specific fields in PDF documents, after which their results were compared. The results are presented using the ”Micro F1-Score” validation method, a scale from 0 to 1, where 1 represents perfect extraction. The method that used GPT-4 proved to be the most successful, yielding a result of 0.98 and error-free extraction in six out of eight fields when tested on 19 PDF documents. GPT-3.5 came in second place and showed promising results in four of the eight fields but did not perform as well in the remaining fields, resulting in a Micro F1-Score of 0.71. Due to the limited amount of data, GPT-3.5 could not reach its full potential, as fine-tuning and validation require larger datasets. Similarly, GPT-4 needs validation with a more comprehensive dataset to draw conclusions about the models’ actual performance. Further research is necessary to determine the capacities of GPT models with these improvements.
|
3 |
Handwriting in VR as a Text Input Method / Handskrift i VR som en TextinmatningsmetodElmgren, Rasmus January 2017 (has links)
This thesis discusses handwriting as a possible text input method for Virtual Reality (VR) with a goal of comparing handwriting with a virtual keyboard input method. VR applications have different approaches to text input and there is no standard for how the user should enter text. Text input methods are important for the user in many cases, e.g when they document, communicate or enter their login information. The goal of the study was to understand how a handwriting input would compare to pointing at a virtual keyboard, which is the most common approach to the problem. A prototype was built using Tesseract for character recognition and Unity to create a basic virtual environment. This prototype was then evaluated with a user study, comparing it to the de facto standard virtual keyboard input method. The user study had a usability and desirability questionnaire approach and also uses Sutcliffe's heuristics for evaluation of virtual environments. Interviews were performed with each test user. The results suggested that the virtual keyboard performs better except for how engaging the input method was. From the interviews a common comment was that the handwriting input method was more fun and engaging. Further applications of the handwriting input method are discussed as well as why the users favored the virtual keyboard method. / Virtual Reality (VR) applikationer har olika tillvägagångssätt för textinmatning och det finns ingen tydlig standard hur användaren matar in text i VR. Textinmatning är viktigt när användaren ska dokumentera, kommunicera eller logga in. Målet med studien var att jämföra en inmatningsmetod baserad på handskrift med det de facto standard virtuella tangentbordet och se vilken inmatningsmetod användarna föredrog. En prototyp som använde handskrift byggdes med hjälp av Tesseract för textinmatning och Unity för att skapa en virtuell miljö. Prototypen jämfördes sedan med det virtuella tangentbordet i en användarstudie. Användarstudien bestod av uppmätt tid samt antal fel, en enkät och en intervju. Enkäten grundades på användarbarhet, önskvärdhet och Sutcliffes utvärderingsheuristik av virtuella miljöer. Resultatet visar att det virtuella tangentbordet presterade bättre, handskriftsmetoden presterade endast bättre på att engagera användaren. Resultatet från intervjuerna styrkte också att handskriftsmetoden var roligare och mer engagerande att använda men inte lika användbar. Framtida studier föreslås i diskussionen samt varför användarna föredrog det virtuella tangentbordet.
|
4 |
Character Recognition in Natural Images Utilising TensorFlow / Teckenigenkänning i naturliga bilder med TensorFlowViklund, Alexander, Nimstad, Emma January 2017 (has links)
Convolutional Neural Networks (CNNs) are commonly used for character recognition. They achieve the lowest error rates for popular datasets such as SVHN and MNIST. Usage of CNN is lacking in research about character classification in natural images regarding the whole English alphabet. This thesis conducts an experiment where TensorFlow is used to construct a CNN that is trained and tested on the Chars74K dataset, with 15 images per class for training and 15 images per class for testing. This is done with the aim of achieving a higher accuracy than the non-CNN approach by de Campos et al. [1], that achieved 55.26%. The thesis explores data augmentation techniques for expanding the small training set and evaluates the result of applying rotation, stretching, translation and noise-adding. The result of this is that all of these methods apart from adding noise gives a positive effect on the accuracy of the network. Furthermore, the experiment shows that with a three layered convolutional neural network it is possible to create a character classifier that is as good as de Campos et al.'s. It is believed that even better results can be achieved if more experiments would be conducted on the parameters of the network and the augmentation. / Det är vanligt att använda konvolutionära artificiella neuronnät (CNN) för bildigenkänning, då de ger de minsta felmarginalerna på kända datamängder som SVHN och MNIST. Dock saknas det forskning om användning av CNN för klassificering av bokstäver i naturliga bilder när det gäller hela det engelska alfabetet. Detta arbete beskriver ett experiment där TensorFlow används för att bygga ett CNN som tränas och testas med bilder från Chars74K. 15 bilder per klass används för träning och 15 per klass för testning. Målet med detta är att uppnå högre noggrannhet än 55.26%, vilket är vad de campos et al. [1] uppnådde med en metod utan artificiella neuronnät. I rapporten utforskas olika tekniker för att artificiellt utvidga den lilla datamängden, och resultatet av att applicera rotation, utdragning, translation och bruspåslag utvärderas. Resultatet av det är att alla dessa metoder utom bruspåslag ger en positiv effekt på nätverkets noggrannhet. Vidare visar experimentet att med ett CNN med tre lager går det att skapa en bokstavsklassificerare som är lika bra som de Campos et al.s klassificering. Om fler experiment skulle genomföras på nätverkets och utvidgningens parametrar är det troligt att ännu bättre resultat kan uppnås.
|
5 |
Computer Vision for Document Image Analysis and Text Extraction / Datorseende för analys av dokumentbilder och textutvinningBenchekroun, Omar January 2022 (has links)
Automatic document processing has been a subject of interest in the industry for the past few years, especially with the recent technological advances in Machine Learning and Computer Vision. This project investigates in-depth a major component used in Document Image Processing known as Optical Character Recognition (OCR). First, an improvement upon existing shallow CNN+LSTM is proposed, using domain-specific data synthesis. We demonstrate that this model can achieve an accuracy of up to 97% on non-handwritten text, with an accuracy improvement of 24% when using synthetic data. Furthermore, we deal with handwritten text that presents more challenges including the variance of writing style, slanting, and character ambiguity. A CNN+Transformer architecture is validated to recognize handwriting extracted from real-world insurance statements data. This model achieves a maximal accuracy of 92% on real-world data. Moreover, we demonstrate how a data pipeline relying on synthetic data can be a scalable and affordable solution for modern OCR needs. / Automatisk dokumenthantering har varit ett ämne av intresse i branschen under de senaste åren, särskilt med de senaste tekniska framstegen inom maskininlärning och datorseende. I detta projekt kommer man att på djupet undersöka en viktig komponent som används vid bildbehandling av dokument och som kallas optisk teckenigenkänning (OCR). Först kommer en förbättring av befintlig ytlig CNN+LSTM att föreslås, med hjälp av domänspecifik datasyntes. Vi kommer att visa att denna modell kan uppnå en noggrannhet på upp till 97% på icke handskriven text, med en förbättring av noggrannheten på 24% när syntetiska data används. Dessutom kommer vi att behandla handskriven text som innebär fler utmaningar, t.ex. variationer i skrivstilen, snedställningar och tvetydiga tecken. En CNN+Transformer-arkitektur kommer att valideras för att känna igen handskrift från verkliga data om försäkringsbesked. Denna modell uppnår en maximal noggrannhet på 92% på verkliga data. Dessutom kommer vi att visa hur en datapipeline som bygger på syntetiska data är en skalbar och prisvärd lösning för moderna OCR-behov.
|
6 |
En komparativ studie av OCR-verktyg för granskning av handlingar : Med prestanda och precision i fokus / A comparative study of OCR tools for reviewing documents : Focusing on performance and precisionSjöstedt, Niklas January 2023 (has links)
Dagens samhälle präglas av en exponentiell tillväxt av data, med förväntningar på en ökning från dagens 33 Zettabytes till 175 Zettabytes år 2025. Denna utveckling medför både fördelar och utmaningar för de individer och organisationer som arbetar med analys av denna massiva datamängd. För att underlätta granskning och analys av data i text- eller bildform kan ett OCR- verktyg användas. OCR-verktyg, byggda på AI-teknik, kan underlätta och automatisera granskningen av data. Det finns i dagsläget en mängd olika OCR-verktyg som presterar mer eller mindre bra. Denna studie genomfördes på uppdrag av Etteplan som i dagsläget upplever en hög tid- och resursåtgång för granskning av elnätsritningar. Syftet med denna studie var att undersöka och jämföra OCR-verktygen PyTesseract, EasyOCR och PaddleOCR utifrån ett antal prestandakriterier. De kriterium som jämfördes i denna studie var exekveringstid, precision, Levenshtein-avstånd, antal tecken per millisekund, CPU-, RAM- och GPU-användning. Studien var ämnad att kunna ge en rekommendation på vilket OCR-verktyg som presterar bäst till Etteplan. Tre likvärdiga testapplikationer skapades för de olika OCR-verktygen med hjälp av Python. Dessa testapplikationers uppgift var att läsa in textdata från bilder innehållande tabeller, för att sedan jämföra resultatet av inläsningen mot en lista innehållande den faktiska texten. Denna funktionalitet gjorde det möjligt för författaren av denna studie att mäta de olika prestandakriterierna och sedan ställa dem mot varandra. Resultatet av denna studie visar att PaddleOCR är det verktyg som presterar bäst när det kommer till precision, Levenshtein-avstånd och exekveringstid. Men detta på bekostnad av högre resursanvändning.
|
7 |
Prisestimering på bostadsrätter : Implementering av OCR-metoder och Random Forest regression för datadriven värdering / Price estimation in the housing cooperative market : Implementation of OCR methods and Random Forest regression for data-driven valuationLövgren, Sofia, Löthman, Marcus January 2023 (has links)
This thesis explores the implementation of Optical Character Recognition (OCR) – based text extraction and random forest regression analysis for housing market valuation, specifically focusing on the impact of value factors, derived from OCR-extracted economic values from housing cooperatives’ annual reports. The objective is to perform price estimations using the Random Forest model to identify the key value factors that influence the estimation process and examine how the economic values from annual reports affect the sales price. The thesis aims to highlight the often-overlooked aspect that when purchasing an apartment, one also assumes the liabilities of the housing cooperative. The motivation for utilizing OCR techniques stems from the difficulties associated with manual data collection, as there is a lack of readily accessible structured data on the subject, emphasizing the importance of automation for effective data extraction. The findings indicate that OCR can effectively extract data from annual reports, but with limitations due to variation in report structures. The regression analysis reveals the Random Forest model’s effectiveness in estimating prices, with location and construction year emerging as the most influential factors. Furthermore, incorporating the economic values from the annual reports enhances the accuracy of price estimation compared to the model that excluded such factors. However, definitive conclusions regarding the precise impact of these economic factors could not be drawn due to limited geographical spread of data points and potential hidden value factors. The study concludes that the machine learning model can be used to make a credible price estimate on cooperative apartments and that OCR methods prove valuable in automating data extraction from annual reports, although standardising report format would enhance their efficiency. The thesis highlights the significance of considering the housing cooperatives’ economic values when making property purchases.
|
8 |
On dysgraphia diagnosis support via the automation of the BVSCO test scoring : Leveraging deep learning techniques to support medical diagnosis of dysgraphia / Om dysgrafi diagnosstöd via automatisering av BVSCO-testpoäng : Utnyttja tekniker för djupinlärning för att stödja medicinsk diagnos av dysgrafiSommaruga, Riccardo January 2022 (has links)
Dysgraphia is a rather widespread learning disorder in the current society. It is well established that an early diagnosis of this writing disorder can lead to improvement in writing skills. However, as of today, although there is no comprehensive standard process for the evaluation of dysgraphia, most of the tests used for this purpose must be done at a physician’s office. On the other hand, the pandemic triggered by COVID-19 has forced people to stay at home and opened the door to the development of online medical consultations. The present study therefore aims to propose an automated pipeline to provide pre-clinical diagnosis of dysgraphia. In particular, it investigates the possibility of applying deep learning techniques to the most widely used test for assessing writing difficulties in Italy, the BVSCO-2. This test consists of several writing exercises to be performed by the child on paper under the supervision of a doctor. To test the hypothesis that it is possible to enable children to have their writing impairment recognized even at a distance, an innovative system has been developed. It leverages an already developed customized tablet application that captures the graphemes produced by the child and an artificial neural network that processes the images and recognizes the handwritten text. The experimental results were analyzed using different methods and were compared with the actual diagnosis that a doctor would have provided if the test had been carried out normally. It turned out that, despite a slight fixed bias introduced by the machine for some specific exercises, these results seemed very promising in terms of both handwritten text recognition and diagnosis of children with dysgraphia, thus giving a satisfactory answer to the proposed research question. / Dysgrafi är en ganska utbredd inlärningsstörning i dagens samhälle. Det är väl etablerat att en tidig diagnos av denna skrivstörning kan leda till en förbättring av skrivförmågan. Även om det i dag inte finns någon omfattande standardprocess för utvärdering av dysgrafi måste dock de flesta av de tester som används för detta ändamål göras på en läkarmottagning. Å andra sidan har den pandemi som utlöstes av COVID-19 tvingat människor att stanna hemma och öppnat dörren för utvecklingen av medicinska konsultationer online. Syftet med denna studie är därför att föreslå en automatiserad pipeline för att ge preklinisk diagnos av dysgrafi. I synnerhet undersöks möjligheten att tillämpa djupinlärningstekniker på det mest använda testet för att bedöma skrivsvårigheter i Italien, BVSCO-2. Testet består av flera skrivövningar som barnet ska utföra på papper under överinseende av en läkare. För att testa hypotesen att det är möjligt att göra det möjligt för barn att få sina skrivsvårigheter erkända även på distans har ett innovativt system utvecklats. Det utnyttjar en redan utvecklad skräddarsydd applikation för surfplattor som fångar de grafem som barnet producerar och ett artificiellt neuralt nätverk som bearbetar bilderna och känner igen den handskrivna texten. De experimentella resultaten analyserades med hjälp av olika metoder och jämfördes med den faktiska diagnos som en läkare skulle ha ställt om testet hade utförts normalt. Det visade sig att, trots en liten fast bias som maskinen införde för vissa specifika övningar, verkade dessa resultat mycket lovande när det gäller både igenkänning av handskriven text och diagnos av barn med dysgrafi, vilket gav ett tillfredsställande svar på den föreslagna forskningsfrågan.
|
9 |
Training a Neural Network using Synthetically Generated Data / Att träna ett neuronnät med syntetisktgenererad dataDiffner, Fredrik, Manjikian, Hovig January 2020 (has links)
A major challenge in training machine learning models is the gathering and labeling of a sufficiently large training data set. A common solution is the use of synthetically generated data set to expand or replace a real data set. This paper examines the performance of a machine learning model trained on synthetic data set versus the same model trained on real data. This approach was applied to the problem of character recognition using a machine learning model that implements convolutional neural networks. A synthetic data set of 1’240’000 images and two real data sets, Char74k and ICDAR 2003, were used. The result was that the model trained on the synthetic data set achieved an accuracy that was about 50% better than the accuracy of the same model trained on the real data set. / Vid utvecklandet av maskininlärningsmodeller kan avsaknaden av ett tillräckligt stort dataset för träning utgöra ett problem. En vanlig lösning är att använda syntetiskt genererad data för att antingen utöka eller helt ersätta ett dataset med verklig data. Denna uppsats undersöker prestationen av en maskininlärningsmodell tränad på syntetisk data jämfört med samma modell tränad på verklig data. Detta applicerades på problemet att använda ett konvolutionärt neuralt nätverk för att tyda tecken i bilder från ”naturliga” miljöer. Ett syntetiskt dataset bestående av 1’240’000 samt två stycken dataset med tecken från bilder, Char74K och ICDAR2003, användes. Resultatet visar att en modell tränad på det syntetiska datasetet presterade ca 50% bättre än samma modell tränad på Char74K.
|
10 |
Effektivisering av Tillverkningsprocesser med Artificiell Intelligens : Minskad Materialförbrukning och Förbättrad KvalitetskontrollAl-Saaid, Kasim, Holm, Daniel January 2024 (has links)
This report explores the implementation of AI techniques in the manufacturing process at Ovako, focusing on process optimization, individual traceability, and quality control. By integrating advanced AI models and techniques at various levels within the production process, Ovako can improve efficiency, reduce material consumption, and prevent production stops. For example, predictive maintenance can be applied to anticipate and prevent machine problems, while image recognition algorithms and optical character recognition enable individual traceability of each rod throughout the process. Furthermore, AI-based quality control can detect defects and deviations with high precision and speed, leading to reduced risk of faulty products and increased product quality. By carefully considering the role of the workforce, safety and ethical issues, and the benefits and challenges of AI implementation, Ovako can maximize the benefits of these techniques and enhance its competitiveness in the market. / Denna rapport utforskar implementeringen av AI-tekniker i tillverkningsprocessen hos Ovako, med fokus på processoptimering, individuell spårbarhet och kvalitetskontroll. Genom att integrera avancerade AI-modeller och tekniker på olika nivåer inom produktionsprocessen kan Ovako förbättra effektiviteten, minska materialförbrukningen och förhindra produktionsstopp. Exempelvis kan prediktivt underhåll tillämpas för att förutse och förebygga maskinproblem, medan bildigenkänningsalgoritmer och optisk teckenigenkänning möjliggör individuell spårbarhet av varje stång genom processen. Dessutom kan AI-baserad kvalitetskontroll detektera defekter och avvikelser med hög precision och hastighet, vilket leder till minskad risk för felaktiga produkter och ökad produktkvalitet. Genom att noggrant överväga arbetskraftens roll, säkerhets- och etikfrågor samt fördelarna och utmaningarna med AI-implementeringen kan Ovako maximera nyttan av dessa tekniker och förbättra sin konkurrenskraft på marknaden.
|
Page generated in 0.0778 seconds