Spelling suggestions: "subject:"rcr"" "subject:"cocr""
41 |
Překlad textu v reálném čase s využitím mobilního zařízení / Real-time text translation with using mobile devicesSztefek, Lukáš January 2014 (has links)
The aim of this thesis is design and implementation of Android application which will serve as real-time translator from one language to another, including several world languages and Czech. The text obtained from image is translated and replaces the original one with keeping its visual look as much as possible. The reader gradually gets familiar with getting text from images, text translation, displaying text on mobile device and Android OS implementation. In conclusion, the experiments with multiple input images and comparison of existings applications have been done.
|
42 |
Applikation för scanning av körkortsinformation : Informationen lagras med Microsoft Azure / Application for scanning driver license information : Information stored with Microsoft AzureWarnestad, Hannes, Aronsson, Martin January 2020 (has links)
Sedan den nya personuppgiftslagen, GDPR, trädde i kraft har större krav ställts på organisationer gällande hantering av personlig data. När processer inom en organisation ska digitaliseras, ställs högre krav på säkerheten av data. Ett bilföretag i Karlstad fick som krav från en av sina leverantörer att digitalisera sin provkörningsprocess, som tidigare var pappersbunden. Genom att automatisera processen och lagringen av data säkerställs det att detta hanteras korrekt. En lösning var att skapa en mobil applikation som skannar in körkort och sparar kunddata i en databas. Applikationen utvecklades för att uppfylla företagets krav samt de regelverk som GDPR innebär för digitala lösningar som hanterar känslig persondata. Applikationen skapades med hjälp av Xamarin i Visual Studio med fokus på Android applikationer. Data sparas i en molndatabas hos Microsoft Azure. I rapporten presenteras applikationens metoder och hur de samspelar för att ge den önskade funktionaliteten. I resultatet beskrivs också vilka krav som har uppfyllts. / Since the new General Data Protection Regulation (GDPR) came into force, greater demands have been placed on organizations regarding the handling of personal data. When digitalizing processes within an organization, higher demands are placed on data security. A car company in Karlstad was required by one of its suppliers to digitalize their test driving process, which was previously paper bound. By automating the process and storing the data, it is ensured that this is handled correctly. One solution was to create a mobile application that scans driving licenses and saves customer data in a database. The application was developed to meet the company’s requirements as well as the regulations that GDPR imposes on digital solutions that handle sensitive personal data. The application was created using Xamarin in Visual Studio focusing on Android applications. Data is stored in a cloud database at Microsoft Azure. The report presents the application’s methods and how they interact to provide the desired functionality. The result also describes what requirements have been met
|
43 |
Digitalisering av handskrivna siffror på fysiska formulär : Utvärdering av tillförlitlighet och träningstidManousian, Jonathan January 2020 (has links)
Inom arbetslivet finns situationer i vilka vi kan utnyttja digitalisering för att förenkla och effektivisera arbetet. Ett exempel är den analoga hanteringen av fysiska formulär. Oftast överförs data från fysiska formulär till datorn manuellt. Syftet med detta projekt är att effektivisera den generella hanteringen av pappersformulär genom inskanning. Detta kan göras genom att utnyttja en beskärningsfunktion vid inskanningen. Beskärningen används för att beskära bort irrelevant data från formuläret och därmed framhävs det som ska skannas in. Därefter kan objektigenkänning användas för att känna igen siffror och text från det framhävda fältet. En Androidapplikation har utvecklats som utnyttjar mobilens inbyggda kamera för att skanna in och framhäva viktiga fält från formulär. Parallellt tränades en maskininlärningsmodell, med TensorFlow, att känna igen handskrivna siffror. Den färdigtränade modellen jämfördes med olika OCR-verktyg och resultatet visade att modellen detekterar handskrivna siffror bättre. / A workplace can be made more efficient by digitalization. An example of that is the handling of forms. Most of the time physical forms are manually digitalized. The aim of this project is to simplify the general handling of forms by automating the process. This could be done by scanning photos of forms and using a cropping function to highlight the important parts. By doing this we can use object detection to recognize the text or numbers on that highlighted field. An application was built that utilizes a phone camera to snap a photo of a form, and then a cropping function was implemented to crop out the important part of the form excluding irrelevant data. Parallel to that a machine learning model was trained with TensorFlow to recognize handwritten numbers to work with the application. The trained model was evaluated and compared to different OCR tools, and the results showed that a model trained to detect a specific handwriting works better than general OCR tools on handwritten digits.
|
44 |
Optical Medieval Music Recognition / Optical Medieval Music RecognitionWick, Christoph January 2020 (has links) (PDF)
In recent years, great progress has been made in the area of Artificial Intelligence (AI) due to the possibilities of Deep Learning which steadily yielded new state-of-the-art results especially in many image recognition tasks.
Currently, in some areas, human performance is achieved or already exceeded.
This great development already had an impact on the area of Optical Music Recognition (OMR) as several novel methods relying on Deep Learning succeeded in specific tasks.
Musicologists are interested in large-scale musical analysis and in publishing digital transcriptions in a collection enabling to develop tools for searching and data retrieving.
The application of OMR promises to simplify and thus speed-up the transcription process by either providing fully-automatic or semi-automatic approaches.
This thesis focuses on the automatic transcription of Medieval music with a focus on square notation which poses a challenging task due to complex layouts, highly varying handwritten notations, and degradation.
However, since handwritten music notations are quite complex to read, even for an experienced musicologist, it is to be expected that even with new techniques of OMR manual corrections are required to obtain the transcriptions.
This thesis presents several new approaches and open source software solutions for layout analysis and Automatic Text Recognition (ATR) for early documents and for OMR of Medieval manuscripts providing state-of-the-art technology.
Fully Convolutional Networks (FCN) are applied for the segmentation of historical manuscripts and early printed books, to detect staff lines, and to recognize neume notations.
The ATR engine Calamari is presented which allows for ATR of early prints and also the recognition of lyrics.
Configurable CNN/LSTM-network architectures which are trained with the segmentation-free CTC-loss are applied to the sequential recognition of text but also monophonic music.
Finally, a syllable-to-neume assignment algorithm is presented which represents the final step to obtain a complete transcription of the music.
The evaluations show that the performances of any algorithm is highly depending on the material at hand and the number of training instances.
The presented staff line detection correctly identifies staff lines and staves with an $F_1$-score of above $99.5\%$.
The symbol recognition yields a diplomatic Symbol Accuracy Rate (dSAR) of above $90\%$ by counting the number of correct predictions in the symbols sequence normalized by its length.
The ATR of lyrics achieved a Character Error Rate (CAR) (equivalently the number of correct predictions normalized by the sentence length) of above $93\%$ trained on 771 lyric lines of Medieval manuscripts and of 99.89\% when training on around 3.5 million lines of contemporary printed fonts.
The assignment of syllables and their corresponding neumes reached $F_1$-scores of up to $99.2\%$.
A direct comparison to previously published performances is difficult due to different materials and metrics.
However, estimations show that the reported values of this thesis exceed the state-of-the-art in the area of square notation.
A further goal of this thesis is to enable musicologists without technical background to apply the developed algorithms in a complete workflow by providing a user-friendly and comfortable Graphical User Interface (GUI) encapsulating the technical details.
For this purpose, this thesis presents the web-application OMMR4all.
Its fully-functional workflow includes the proposed state-of-the-art machine-learning algorithms and optionally allows for a manual intervention at any stage to correct the output preventing error propagation.
To simplify the manual (post-) correction, OMMR4all provides an overlay-editor that superimposes the annotations with a scan of the original manuscripts so that errors can easily be spotted.
The workflow is designed to be iteratively improvable by training better models as soon as new Ground Truth (GT) is available. / In den letzten Jahre wurden aufgrund der Möglichkeiten durch Deep Learning, was insbesondere in vielen Bildbearbeitungsaufgaben stetig neue Bestwerte erzielte, große Fortschritte im Bereich der künstlichen Intelligenz (KI) gemacht. Derzeit wird in vielen Gebieten menschliche Performanz erreicht oder mittlerweile sogar übertroffen. Diese großen Entwicklungen hatten einen Einfluss auf den Forschungsbereich der optischen Musikerkennung (OMR), da verschiedenste Methodiken, die auf Deep Learning basierten in spezifischen Aufgaben erfolgreich waren.
Musikwissenschaftler sind in großangelegter Musikanalyse und in das Veröffentlichen von digitalen Transkriptionen als Sammlungen interessiert, was eine Entwicklung von Werkzeugen zur Suche und Datenakquise ermöglicht. Die Anwendung von OMR verspricht diesen Transkriptionsprozess zu vereinfachen und zu beschleunigen indem vollautomatische oder semiautomatische Ansätze bereitgestellt werden. Diese Arbeit legt den Schwerpunkt auf die automatische Transkription von mittelalterlicher Musik mit einem Fokus auf Quadratnotation, die eine komplexe Aufgabe aufgrund der komplexen Layouts, der stark variierenden Notationen und der Alterungsprozesse der Originalmanuskripte darstellt. Da jedoch die handgeschriebenen Musiknotationen selbst für erfahrene Musikwissenschaftler aufgrund der Komplexität schwer zu lesen sind, ist davon auszugehen, dass selbst mit den neuesten OMR-Techniken manuelle Korrekturen erforderlich sind, um die Transkription zu erhalten.
Diese Arbeit präsentiert mehrere neue Ansätze und Open-Source-Software-Lösungen zur Layoutanalyse und zur automatischen Texterkennung (ATR) von frühen Dokumenten und für OMR
von Mittelalterlichen Mauskripten, die auf dem Stand der aktuellen Technik sind. Fully Convolutional Networks (FCN) werden zur Segmentierung der historischen Manuskripte und frühen Buchdrucke, zur Detektion von Notenlinien und zur Erkennung von Neumennotationen eingesetzt. Die ATR-Engine Calamari, die eine ATR von frühen Buchdrucken und ebenso eine Erkennung von Liedtexten ermöglicht wird vorgestellt. Konfigurierbare CNN/LSTM-Netzwerkarchitekturen, die mit dem segmentierungsfreien CTC-loss trainiert werden, werden zur sequentiellen Texterkennung, aber auch einstimmiger Musik, eingesetzt. Abschließend wird ein Silben-zu-Neumen-Algorithmus vorgestellt, der dem letzten Schritt entspricht eine vollständige Transkription der Musik zu erhalten.
Die Evaluationen zeigen, dass die Performanz eines jeden Algorithmus hochgradig abhängig vom vorliegenden Material und der Anzahl der Trainingsbeispiele ist. Die vorgestellte Notenliniendetektion erkennt Notenlinien und -zeilen mit einem $F_1$-Wert von über 99,5%. Die Symbolerkennung erreichte eine diplomatische Symbolerkennungsrate (dSAR), die die Anzahl der korrekten Vorhersagen in der Symbolsequenz zählt und mit der Länge normalisiert, von über 90%. Die ATR von Liedtext erzielte eine Zeichengenauigkeit (CAR) (äquivalent zur Anzahl der korrekten Vorhersagen normalisiert durch die Sequenzlänge) von über 93% bei einem Training auf 771 Liedtextzeilen von mittelalterlichen Manuskripten und von 99,89%, wenn auf 3,5 Millionen Zeilen von moderner gedruckter Schrift trainiert wird. Die Zuordnung von Silben und den zugehörigen Neumen erreicht $F_1$-werte von über 99,2%. Ein direkter Vergleich zu bereits veröffentlichten Performanzen ist hierbei jedoch schwer, da mit verschiedenen Material und Metriken evaluiert wurde. Jedoch zeigen Abschätzungen, dass die Werte dieser Arbeit den aktuellen Stand der Technik darstellen.
Ein weiteres Ziel dieser Arbeit war es, Musikwissenschaftlern ohne technischen Hintergrund das Anwenden der entwickelten Algorithmen in einem vollständigen Workflow zu ermöglichen, indem eine benutzerfreundliche und komfortable graphische Benutzerschnittstelle (GUI) bereitgestellt wird, die die technischen Details kapselt. Zu diesem Zweck präsentiert diese Arbeit die Web-Applikation OMMR4all. Ihr voll funktionsfähiger Workflow inkludiert die vorgestellten Algorithmen gemäß dem aktuellen Stand der Technik und erlaubt optional manuell zu jedem Schritt einzugreifen, um die Ausgabe zur Vermeidung von Folgefehlern zu korrigieren. Zur Vereinfachung der manuellen (Nach-)Korrektur stellt OMMR4all einen Overlay-Editor zur Verfügung, der die Annotationen mit dem Scan des Originalmanuskripts überlagert, wodurch Fehler leicht erkannt werden können. Das Design des Workflows erlaubt iterative Verbesserungen, indem neue performantere Modelle trainiert werden können, sobald neue Ground Truth (GT) verfügbar ist.
|
45 |
HandText Detector AIQurban, Hamidullah Ehsani January 2024 (has links)
This master’s thesis explores the application of Artificial Intelligence (AI) in the digitization ofunstructured documents which contains normal text, handwritten text and also integers- a criticalaspect for infrastructure management. As digitization progresses, the efficiency in handling suchdocuments remains a considerable challenge due to their unstructured nature and variedhandwritten quality. The research evaluated several Optical Character Recognition (OCR)models, including Pytesseract, EasyOCR, KerasOCR, docTR, to identify the most effectivemethod for converting handwritten documents into digital, searchable formats. In this study, eachmodel was rigorously tested using a carefully curated dataset containing handwritten and printeddocuments of varying quality and complexity. The models were assessed based on their ability toaccurately recognize characters and words, handle multilingual documents, and process a mix ofhandwritten and printed content. Performance metrics such as Character Error Rate (CER) andWord Error Rate (WER) were used to quantify their accuracy. The results reveal that each model exhibits unique strengths. PyTesseract excelled at convertinghigh-quality images to text with minimal errors, while EasyOCR demonstrated robustrecognition across multiple languages. KerasOCR and docTR proved effective in handlingcomplex, unstructured documents due to their advanced AI architectures. By leveraging thesetechnologies, the thesis proposes an optimized approach that integrates metadata extraction toenhance the organization and searchability of digitized content. The proposed solution,compatible with both CPU and GPU platforms, reduces the time and resources required formanual processing, making it accessible for a broader audience. This research contributes to the field by offering insights into the performance of different OCRmodels and providing a practical, scalable solution for digitizing and managing unstructuredhandwritten documents. The solution promises to significantly improve the efficiency ofdocument management, paving the way for future innovations in this space.
|
46 |
Recherche d'information et humanités numériques : une approche et des outils pour l'historien / Information seeking and digital humanities : an approach and tools for the historianSuire, Cyrille 13 September 2018 (has links)
Les travaux de cette thèse portent sur les conséquences du développement du numérique sur la pratique de recherche en SHS au sens large et en histoire en particulier. L'introduction du numérique bouleverse les pratiques de recherche en histoire en mettant à disposition du chercheur un grand volume de sources numérisées ainsi que de nombreux outils d'analyse et d'écriture. Si ces nouveaux moyens de recherche permettent à la discipline d'adopter de nouvelles approches et de renouveler certains points de vue, ils posent également des questions sur les plans méthodologique et épistémologique. Devant ce constat, nous avons choisi d'étudier plus en détail l'impact des outils de recherche d'information, bibliothèques numériques et moteurs de recherche de sources sur l'activité de recherche en histoire. Ces systèmes offrent un accès à un grand volume de documents historiques mais leur fonctionnement repose sur des traitements informatiques pour la plupart invisibles aux yeux des utilisateurs, qui peuvent ainsi s'apparenter à des boîtes noires. L'objectif principal de cette thèse est donc de donner les moyens aux utilisateurs d'observer et de comprendre ces processus dans l'optique de leur permettre d'en intégrer les effets de bord à leur méthodologie. Afin de mieux positionner notre objet d'étude, nous proposons un cadre conceptuel reposant sur la notion de ressource numérique. Ce concept représente les systèmes numériques que nous étudions au sein de leur contexte d'usage, de production et d'exécution, il fait le lien entre des usages attendus par les utilisateurs et des choix méthodologiques ou techniques issus des présupposés de ces concepteurs. Sur la base de ce cadre conceptuel, nous proposons une analyse des bibliothèques numériques et moteurs de recherche de sources en fonction de chacun des contextes. Ainsi, notre étude propose une analyse des usages de ce type de ressource numérique dans le cadre d'une recherche en histoire en adoptant une démarche expérimentale et en produisant des indicateurs de la pratique. Ces indicateurs sont ensuite croisés avec le fonctionnement du système, dans ces contextes de production et d'exécution, pour en révéler les biais méthodologiques. À l'issue de ces analyses, nous proposons un réinvestissement de ces résultats sous la forme d'un outil logiciel dédié à l'enseignement d'une approche critique de la recherche d'information en ligne pour les apprentis historiens. Ces travaux sont évalués par une démarche expérimentale. Elle est construite sur la base d'un prototype d'observation du comportement des utilisateurs en situation de recherche d'information et des outils de démonstration des biais associés au fonctionnement des processus informatiques impliqués lors des phases de production des contenus et d'exécution du système. Ce prototype a fait l'objet de plusieurs phases d'expérimentation liées à son développement, l'évaluation de ces fonctionnalités et de son impact sur la pratique dans un contexte de formation. / The work of this thesis focuses on the consequences of digital technology development on research practice in the humanities in the broad sense and particularly in history. The introduction of digital technology disrupts historical research practices by making available to the researcher a large volume of digitized sources as well as numerous analysis and writing tools. These new capacities of research allow the discipline to adopt new approaches and renew certain points of view, but they also raise methodological and epistemological questions. Given this observation, we have chosen to study in more detail the impact of information retrieval tools, digital libraries and search engines on historical research activity. These systems offer access to a large volume of historical documents but they depend on computer processes that are mostly invisible to users and acting as black boxes. The main objective of this work is to give users the means to observe and understand these processes in order to allow them to integrate their side effects in a suitable methodology. In order to better position our object of study, we propose a conceptual framework based on the notion of digital resource. This concept represents the digital systems that we study within their contexts of use, production and execution. It connects uses expected by users and methodological or technical choices based on the assumptions of system designers. Based on this conceptual framework, we propose an analysis of digital libraries and historical sources search engines according to each context. Thus, our study proposes an analysis of the uses of this type of digital resource within the framework of a research in history. The study adopts an experimental approach and produces indicators of the practice. These indicators are then crossed with the functioning of the system, in its contexts of production and execution, to reveal the potential methodological biases. Following these analyzes, we propose a reinvestment of these results in the form of a software tool dedicated to teaching a critical approach to online information retrieval for student in history. This work is evaluated by an experimental approach. It is built on the basis of a prototype of observation of the behavior of the users when they are looking for information. Our experimental approach is also based on demonstration tools of the biases associated with the functioning of the computer processes involved during the contexts of production and execution. This prototype has been the subject of several experimental phases related to its development, the evaluation of these features and its impact on practice in a training context.
|
47 |
Optische Methoden zur Positionsbestimmung auf Basis von LandmarkenBilda, Sebastian 07 September 2017 (has links) (PDF)
Die Innenraumpositionierung kommt in der heutigen Zeit immer mehr Aufmerksamkeit zu teil. Neben der Navigation durch das Gebäude sind vor allem Location Based Services von Bedeutung, welche Zusatzinformationen zu spezifischen Objekten zur Verfügung stellen Da für eine Innenraumortung das GPS Signal jedoch zu schwach ist, müssen andere Techniken zur Lokalisierung gefunden werden. Neben der häufig verwendeten Positionierung durch Auswertung von empfangenen Funkwellen existieren Methoden zur optischen Lokalisierung mittels Landmarken. Das kamerabasierte Verfahren bietet den Vorteil, dass eine oft zentimetergenaue Positionierung möglich ist.
In dieser Masterarbeit erfolgt die Bestimmung der Position im Gebäude mittels Detektion von ArUco-Markern und Türschildern aus Bilddaten. Als Evaluationsgeräte sind zum einen die Kinect v2 von Microsoft, als auch das Lenovo Phab 2 Pro Smartphone verwendet worden. Neben den Bilddaten stellen diese auch mittels Time of Flight Sensoren generierte Tiefendaten zur Verfügung. Durch den Vergleich von aus dem Bild extrahierten Eckpunkten der Landmarke, mit den aus einer Datenbank entnommenen realen geometrischen Maßen des Objektes, kann die Entfernung zu einer gefundenen Landmarke bestimmt werden. Neben der optischen Distanzermittlung wird die Position zusätzlich anhand der Tiefendaten ermittelt. Abschließend werden beiden Verfahren miteinander verglichen und eine Aussage bezüglich der Genauigkeit und Zuverlässigkeit des in dieser Arbeit entwickelten Algorithmus getroffen. / Indoor Positioning is receiving more and more attention nowadays. Beside the navigation through a building, Location Bases Services offer the possibility to get more information about certain objects in the enviroment. Because GPS signals are too weak to penetrate buildings, other techniques for localization must be found. Beneath the commonly used positioning via the evaluation of received radio signals, optical methods for localization
with the help of landmarks can be used. These camera-based procedures have the advantage, that an inch-perfect positioning is possible.
In this master thesis, the determination of the position in a building is chieved through the detection of ArUco-Marker and door signs in images gathered by a camera. The evaluation is done with the Microsoft Kinect v2 and the Lenovo Phab 2 Pro Smartphone. They offer depth data gained by a time of flight sensor beside the color images. The range to a detected landmark is calculated by comparing the object´s corners in the image with
the real metrics, extracted from a database. Additionally, the distance is determined by the evaluation of the depth data. Finally, both procedures are compared with each other and a statement about the accuracy and responsibility is made.
|
48 |
Adaptivní rozpoznávání ručně psaného textu / Adaptive Handwritten Text RecognitionProcházka, Štěpán January 2021 (has links)
The need to preserve and exchange written information is central to the human society, with handwriting satisfying such need for several past millenia. Unlike optical character recognition of typeset fonts, which has been throughly studied in the last few decades, the task of handwritten text recognition, being considerably harder, lacks such attention. In this work, we study the capabilities of deep convolutional and recurrent neural networks to solve handwritten text extraction. To mitigate the need for large quantity of real ground truth data, we propose a suitable synthetic data generator for model pre-training, and carry out extensive set of experiments to devise a self-training strategy to adapt the model to unnanotated real handwritten letterings. The proposed approach is compared to supervised approaches and state-of-the-art results on both established and novel datasets, achieving satisfactory performance. 1
|
49 |
Algorithmes de machine learning en assurance : solvabilité, textmining, anonymisation et transparence / Machine learning algorithms in insurance : solvency, textmining, anonymization and transparencyLy, Antoine 19 November 2019 (has links)
En été 2013, le terme de "Big Data" fait son apparition et suscite un fort intérêt auprès des entreprises. Cette thèse étudie ainsi l'apport de ces méthodes aux sciences actuarielles. Elle aborde aussi bien les enjeux théoriques que pratiques sur des thématiques à fort potentiel comme l'textit{Optical Character Recognition} (OCR), l'analyse de texte, l'anonymisation des données ou encore l'interprétabilité des modèles. Commençant par l'application des méthodes du machine learning dans le calcul du capital économique, nous tentons ensuite de mieux illustrer la frontrière qui peut exister entre l'apprentissage automatique et la statistique. Mettant ainsi en avant certains avantages et différentes techniques, nous étudions alors l'application des réseaux de neurones profonds dans l'analyse optique de documents et de texte, une fois extrait. L'utilisation de méthodes complexes et la mise en application du Réglement Général sur la Protection des Données (RGPD) en 2018 nous a amené à étudier les potentiels impacts sur les modèles tarifaires. En appliquant ainsi des méthodes d'anonymisation sur des modèles de calcul de prime pure en assurance non-vie, nous avons exploré différentes approches de généralisation basées sur l'apprentissage non-supervisé. Enfin, la réglementation imposant également des critères en terme d'explication des modèles, nous concluons par une étude générale des méthodes qui permettent aujourd'hui de mieux comprendre les méthodes complexes telles que les réseaux de neurones / In summer 2013, the term "Big Data" appeared and attracted a lot of interest from companies. This thesis examines the contribution of these methods to actuarial science. It addresses both theoretical and practical issues on high-potential themes such as textit{Optical Character Recognition} (OCR), text analysis, data anonymization and model interpretability. Starting with the application of machine learning methods in the calculation of economic capital, we then try to better illustrate the boundary that may exist between automatic learning and statistics. Highlighting certain advantages and different techniques, we then study the application of deep neural networks in the optical analysis of documents and text, once extracted. The use of complex methods and the implementation of the General Data Protection Regulation (GDPR) in 2018 led us to study its potential impacts on pricing models. By applying anonymization methods to pure premium calculation models in non-life insurance, we explored different generalization approaches based on unsupervised learning. Finally, as regulations also impose criteria in terms of model explanation, we conclude with a general study of methods that now allow a better understanding of complex methods such as neural networks
|
50 |
Automated invoice handling with machine learning and OCR / Automatiserad fakturahantering med maskininlärning och OCRLarsson, Andreas, Segerås, Tony January 2016 (has links)
Companies often process invoices manually, therefore automation could reduce manual labor. The aim of this thesis is to evaluate which OCR-engine, Tesseract or OCRopus, performs best at interpreting invoices. This thesis also evaluates if it is possible to use machine learning to automatically process invoices based on previously stored data. By interpreting invoices with the OCR-engines, it results in the output text having few spelling errors. However, the invoice structure is lost, making it impossible to interpret the corresponding fields. If Naïve Bayes is chosen as the algorithm for machine learning, the prototype can correctly classify recurring invoice lines after a set of data has been processed. The conclusion is, neither of the two OCR-engines can interpret the invoices to plain text making it understandable. Machine learning with Naïve Bayes works on invoices if there is enough previously processed data. The findings in this thesis concludes that machine learning and OCR can be utilized to automatize manual labor. / Företag behandlar oftast fakturor manuellt och en automatisering skulle kunna minska fysiskt arbete. Målet med examensarbetet var att undersöka vilken av OCR-läsarna, Tesseract och OCRopus som fungerar bäst på att tolka en inskannad faktura. Även undersöka om det är möjligt med maskininlärning att automatiskt behandla fakturor utifrån tidigare sparad data. Genom att tolka text med hjälp av OCR-läsarna visade resultaten att den producerade texten blev språkligt korrekt, men att strukturen i fakturan inte behölls vilket gjorde det svårt att tolka vilka fält som hör ihop. Naïve Bayes valdes som algoritm till maskininlärningen och resultatet blev en prototyp som korrekt kunde klassificera återkommande fakturarader, efter att en mängd träningsdata var behandlad. Slutsatsen är att ingen av OCR-läsarna kunde tolka fakturor så att resultatet kunde användas vidare, och att maskininlärning med Naïve Bayes fungerar på fakturor om tillräckligt med tidigare behandlad data finns. Utfallet av examensarbetet är att maskininlärning och OCR kan användas för att automatisera fysiskt arbete.
|
Page generated in 0.0568 seconds