• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 52
  • 34
  • 17
  • 17
  • 6
  • 5
  • 4
  • 3
  • 3
  • 3
  • 1
  • 1
  • Tagged with
  • 161
  • 58
  • 47
  • 36
  • 34
  • 27
  • 27
  • 27
  • 22
  • 21
  • 21
  • 20
  • 16
  • 16
  • 16
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
101

Prisestimering på bostadsrätter : Implementering av OCR-metoder och Random Forest regression för datadriven värdering / Price estimation in the housing cooperative market : Implementation of OCR methods and Random Forest regression for data-driven valuation

Lövgren, Sofia, Löthman, Marcus January 2023 (has links)
This thesis explores the implementation of Optical Character Recognition (OCR) – based text extraction and random forest regression analysis for housing market valuation, specifically focusing on the impact of value factors, derived from OCR-extracted economic values from housing cooperatives’ annual reports. The objective is to perform price estimations using the Random Forest model to identify the key value factors that influence the estimation process and examine how the economic values from annual reports affect the sales price. The thesis aims to highlight the often-overlooked aspect that when purchasing an apartment, one also assumes the liabilities of the housing cooperative. The motivation for utilizing OCR techniques stems from the difficulties associated with manual data collection, as there is a lack of readily accessible structured data on the subject, emphasizing the importance of automation for effective data extraction. The findings indicate that OCR can effectively extract data from annual reports, but with limitations due to variation in report structures. The regression analysis reveals the Random Forest model’s effectiveness in estimating prices, with location and construction year emerging as the most influential factors. Furthermore, incorporating the economic values from the annual reports enhances the accuracy of price estimation compared to the model that excluded such factors. However, definitive conclusions regarding the precise impact of these economic factors could not be drawn due to limited geographical spread of data points and potential hidden value factors. The study concludes that the machine learning model can be used to make a credible price estimate on cooperative apartments and that OCR methods prove valuable in automating data extraction from annual reports, although standardising report format would enhance their efficiency. The thesis highlights the significance of considering the housing cooperatives’ economic values when making property purchases.
102

Automatic compilation and summarization of documented Russian equipment losses in Ukraine : A method development / Automatisk sammanställning och sammanfattning av dokumenterade ryska materielförluster i Ukraina : Metodutveckling

Zaff, Carl January 2023 (has links)
Since the Russian invasion of Ukraine on the 24th of February 2022 – most of the United Nations have, in one way or another, participated in the most significant war of many decades. The war is characterized by Russia’s atrocious war crimes, illegal annexations, terror, propaganda, and complete disrespect for international law. On the other hand, the war has also been characterized by Ukrainian resilience, a united Europe, and a new dimension of intelligence gathering through social media.Due to the internet, social media, the accessibility of mobile devices, and Ukraine’s military and civilianeffort in documenting Russian equipment – its whereabouts, status, and quantity, Open-Source Intelligence possibilities have reached new levels for both professionals and amateurs. Despite these improved possibilities, gathering such a vast amount of data is still a Herculean effort.Hence, this study contributes a starting point for anyone wanting to compile equipment losses by providing a process specialized in automatic data extraction and summarization from an existing database. The database in question is the image collection from the military analysis group Oryxspioenkop. To further complement the information provided by Oryxspioenkop, the method automatically extracts and annotates dates from the images to provide a chronological order of the equipment loss as well as a graphical overview.The process shows promising results and manages to compile a large set of data, both the information provided by Oryx and the extracted dates from its imagery. Further, the automated process proves to be many times faster than its manual counterpart, showing a linear relationship between the number of images analysed and manhours saved. However, due to the limited development time – the process still has room for improvement and should be considered semi-automatic, rather than automatic. Nevertheless, thanks to the open-source design, the process can be continuously updated and modified to work with other databases, images, or the extraction of other strings of text from imagery.With the rise of competent artificial image generation models, the study also raises the question if this kind of imagery will be a reliable source in the future when studying equipment losses, or if artificial intelligence will be used as a tool of propaganda and psychological operations in wars to come. / Sedan Rysslands oprovocerade invasion av Ukraina den 24e februari 2022 – har stora delar av de Förenta nationerna engagerat sig i århundradets mest signifikanta krig. Kriget har karaktäriserats av ryska krigsbrott, olagliga annekteringar, terror, propaganda samt en total avsaknad av respekt för folkrätt. I kontrast, har kriget även karaktäriserats av Ukrainas ovillkorliga motståndskraft, ett enat Europa och en ny dimension av underrättelseinhämtning från sociala medier.Genom internet, sociala medier, tillgängligheten av mobiltelefoner och Ukrainas militära och civila ansträngning att dokumentera rysk materiel – vart den befinner sig, vilken status den har samt vilken kvantitet den finns i, har öppen underrättelseinhämtning blomstrat på både professionell och amatörnivå. Dock, på grund av den kvantitet som denna data genereras i, kräver en helhetssammanställning en oerhörd insats.Därav avser detta arbete ge en grund för sammanställning av materielförluster genom att tillhandahålla en automatiserad process för att extrahera data från en befintlig databas. Detta har exemplifierats genom att nyttja bildkollektioner från Oryxspioenkop, en grupp bestående av militäranalytiker som fokuserar på sammanställning av grafiskt material. Utöver detta så kompletterar processen befintliga data genom att inkludera datumet då materielen dokumenterats. Därigenom ges även en kronologisk ordning för förlusterna.Processen visar lovande resultat och lyckas att effektivt och träffsäkert sammanställa stora mängder data. Vidare lyckas processen att överträffa sin manuella motsvarighet och visar på ett linjärt samband mellan antalet analyserade bilder och besparade mantimmar. Dock, på grund av den korta utvecklingstiden har processen fortfarande en del utvecklingsmöjlighet och förblir semiautomatisk, snarare än automatisk. Å andra sidan, eftersom processen bygger på öppen källkod, finns fortsatt möjlighet att uppdatera och modifiera processen för att passa annat källmaterial.Slutligen, i och med den kontinuerliga utvecklingen av artificiell intelligens och artificiellt genererade bilder,lyfter studien frågan om denna typ av data kommer vara en trovärdig källa i framtida analyser av materielförluster, eller om det kommer att förvandlas till verktyg för propaganda och påverkansoperationeri ett framtida krig.
103

Automated Image Pre-Processing for Optimized Text Extraction Using Reinforcement Learning and Genetic Algorithms

Rohoullah, Rahmat, Joakim, Månsson January 2023 (has links)
This project aims to develop an automated image pre-processing chain to extract valuable information from appliance labels before recycling. The primary goal is to improve optical character recognition accuracy by addressing noise issues using reinforcement learning and an evolutionary algorithm. Python was selected as the primary programming language for this project due to its extensive support for machine learning and computer vision libraries. Different techniques are implemented to enhance text extraction from labels. Binary Robust Invariant Scalable Keypoints (BRISK) are used to straighten labels and separate the label from the background. You Only Look Once version 8x (YOLOv8x) is then used for extracting the regions containing the text of interest. The reinforcement learning model and genetic algorithm dataset are created using BRISK with YOLOv8x. The results showed that pre-processing images in the dataset, provided through BRISK and YOLOv8x, does not affect text extraction accuracy, as suggested by reinforcement learning and evolutionary algorithms. / Detta projekt syftar till att utveckla en automatiserad bildförbehandlingskedja för att extrahera värdefull information från apparatmärken före återvinning. Det primära målet är att förbättra noggrannheten för optisk teckenigenkänning genom att hantera brusproblem med hjälp av förstärkningsinlärning och en evolutionär algoritm. Python valdes som det primära programmeringsspråket för detta projekt på grund av dess omfattande stöd för maskininlärnings- och datorseendebibliotek. Olika tekniker implementeras för att förbättra textutvinningen från etiketterna. Binary Robust Invariant Scalable Keypoints (BRISK) används för att räta ut etiketter och separera etiketten från bakgrunden. You Only Look Once version 8x (YOLOv8x) används sedan för att extrahera områden som innehåller den önskade texten. Datasetet för förstärkningsinlärningsmodellen och den genetiska algoritmen skapas genom att använda BRISK med YOLOv8x. Resultaten visade att förbehandlingen av bilder i datasetet, som tillhandahålls genom BRISK och YOLOv8x, inte påverkar noggrannheten för textutvinning, som föreslagits av förstärkningsinlärning och evolutionära algoritmer.
104

Defect Detection and OCR on Steel

Grönlund, Jakob, Johansson, Angelina January 2019 (has links)
In large scale productions of metal sheets, it is important to maintain an effective way to continuously inspect the products passing through the production line. The inspection mainly consists of detection of defects and tracking of ID numbers. This thesis investigates the possibilities to create an automatic inspection system by evaluating different machine learning algorithms for defect detection and optical character recognition (OCR) on metal sheet data. Digit recognition and defect detection are solved separately, where the former compares the object detection algorithm Faster R-CNN and the classical machine learning algorithm NCGF, and the latter is based on unsupervised learning using a convolutional autoencoder (CAE). The advantage of the feature extraction method is that it only needs a couple of samples to be able to classify new digits, which is desirable in this case due to the lack of training data. Faster R-CNN, on the other hand, needs much more training data to solve the same problem. NCGF does however fail to classify noisy images and images of metal sheets containing an alloy, while Faster R-CNN seems to be a more promising solution with a final mean average precision of 98.59%. The CAE approach for defect detection showed promising result. The algorithm learned how to only reconstruct images without defects, resulting in reconstruction errors whenever a defect appears. The errors are initially classified using a basic thresholding approach, resulting in a 98.9% accuracy. However, this classifier requires supervised learning, which is why the clustering algorithm Gaussian mixture model (GMM) is investigated as well. The result shows that it should be possible to use GMM, but that it requires a lot of GPU resources to use it in an end-to-end solution with a CAE.
105

Abordagem de leitura de texto em imagens provenientes de redes sociais para ganho em disponibilidade de dados

FERREIRA NETO, Luiz Cortinhas 19 October 2017 (has links)
Submitted by Marina Farias (mgmf@ufpa.br) on 2018-02-21T14:36:31Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AbordagemLeituraTexto.pdf: 2083751 bytes, checksum: 71b7e415780a73917bf3fab63301b932 (MD5) / Approved for entry into archive by Marina Farias (mgmf@ufpa.br) on 2018-02-21T14:37:52Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AbordagemLeituraTexto.pdf: 2083751 bytes, checksum: 71b7e415780a73917bf3fab63301b932 (MD5) / Made available in DSpace on 2018-02-21T14:37:52Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_AbordagemLeituraTexto.pdf: 2083751 bytes, checksum: 71b7e415780a73917bf3fab63301b932 (MD5) Previous issue date: 2017-10-19 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / Este trabalho tem como objetivo propor uma adaptação metodológica no processo de análise de redes sociais, baseado na inclusão de texto obtido de imagens provenientes das próprias redes sociais. O processo de análise de sentimento é de fundamental importância para a inteligência de mercado, análise de produtos, para os processos de CRM e SCRM, uma vez que estes são tendências de mercado utilizadas por grandes empresas, que acabam, portanto, auxiliando na atração de incentivos financeiros e motivando a pesquisa. A modificação metodológica aplicada neste trabalho tem sua importância fundamentada na disponibilidade de dados, que tem se tornado cada vez mais restrita, graças a utilização de API’s, que são as interfaces de gerenciamento de acesso aos dados onde, de várias maneiras diferentes, cada rede social limita a consulta de dados, seja por tipo de dado, quantidade coletada ou janela de coleta. Esta pesquisa demonstra, por meio de estudos de caso, que existe ganho de informação para o processo de análise de sentimentos ao incluir dados textuais proveniente de imagens. / This work aims to propose a methodological adaptation in the process of social network analisys, based on the inclusion of text extracted from images that are obtained from the social networks themselves. Highly important for market intelligence, product analysis, CRM and SCRM processes, since these are market trends used by large companies, thus, promotes financial and research incentives. The adaptation proposed in here has its importance based on data availability, which has become increasingly restricted, thanks to the use of APIs, interfaces of data access management where, in several different ways, each social network limits the data query, either by type of data, quantity or collected window. This research intends to prove, through case studies, that there is relevant information gain to sentiment analyses process when textual data derived from images are used.
106

Um estudo sobre reconhecimento visual de caracteres através de redes neurais

Osorio, Fernando Santos January 1991 (has links)
Este trabalho apresenta um estudo sabre reconhecimento visual de caracteres através da utilização das redes neurais. São abordados os assuntos referentes ao Processamento Digital de Imagens, aos sistemas de reconhecimento de caracteres, e as redes neurais. Ao final é apresentada uma proposta de implementação de um sistema OCR orientado ao reconhecimento de caracteres impressos, que utiliza uma rede neural desenvolvida especificamente para esta aplicação. O sistema proposto, que é denominado de sistema N2OCR, possui um protótipo implementado que também é descrito neste trabalho. Em relação ao Processamento Digital de Imagens são apresentados diversos temas, abrangendo os assuntos referentes à aquisição de imagens, ao tratamento das imagens e ao reconhecimento de padrões. A respeito da aquisição de imagens são destacados os aspectos referentes aos dispositivos de aquisição e os tipos de imagens obtidas através destes. Sobre o tratamento de imagens são abordados os aspectos referentes a imagens textuais, incluindo: halftoning, geração e modificação de histograma, limiarização e operações de filtragem. Quanto ao reconhecimento de padrões é feita uma breve análise das técnicas relacionadas a este tema. Os diversos tipos de sistemas de reconhecimento de caracteres são abordados, assim coma as técnicas e algoritmos empregados por estes. Além destes tópicos é apresentada uma discussão a respeito da avaliação dos resultados obtidos por estes sistemas, assim como é feita uma análise das principais dificuldades enfrentadas por estas aplicações. Neste trabalho é feita uma apresentação a respeito das redes neurais, suas características, histórico e evolução das pesquisas nesta área. É feita uma descrição dos principais modelos de redes neurais em destaque na atualidade: Perceptron, Adaline, Madaline, redes multinível, ART, modelo de Hopfield, máquina de Boltzmann, BAM e modelo de Kohonen. A partir da análise dos diferentes modelos de redes neurais empregados na atualidade, chega-se a proposta de um novo modelo de rede a ser utilizado pelo sistema N2OCR. São descritos os itens referentes ao aprendizado, ao reconhecimento e as possíveis extensões deste novo modelo. Também é abordada a possibilidade de implementação de um hardware dedicado para este modelo. No final deste trabalho é fornecida uma visão global do sistema N2OCR, descrevendo cada um de seus módulos. Também é feita uma descrição do protótipo implementado e de suas funções. / This work presents a study of visual character recognition using neural networks. It describes some aspects related to Digital Image Processing, character recognition systems and neural networks. The implementation proposal of one OCR system, for printed character recognition, is also presented. This system uses one neural network specifically developed for this purpose. The OCR system, named N2OCR, has a prototype implementation, which is also described. Several topics related to Digital Image Processing are presented, including some referent to image acquisition, image processing and pattern recognition. Some aspects on image acquisiton are treated, like acquisition equipments and kinds of image data obtained from those equipments. The following items about text image processing are mentioned: halftoning, hystogram generation and alteration, thresholding and filtering operations. A brief analysis about pattern recognition related to this theme is done. Different kinds of character recognition systems are described, as the techniques and algorithms used by them. Besides, a di cussi on about performance estimation of this OCR systems is done, including typical OCR problems description and analysis. In this work, neural networks are presented, describing their characteristics, historical aspects and research evolution in this field. Different famous neural network models are described: Perceptron, Adaline, Madaline, multilevel networks. ART, Hopfield's model , Boltzmann machine, BAM and Kohonen's model. From the analysis of such different neural network models, we arrive to a proposal of a new neural net model, where are described items related to learning, recognition and possible model extensions. A possible hardware implementation of this model is also presented. A global vision of N2OCR system is presented at the end of this work, describing each of its modules. A description of the prototype implementation and functions is also provided.
107

Machine Learning : for Barcode Detection and OCR

Fridolfsson, Olle January 2015 (has links)
Machine learning can be utilized in many different ways in the field of automatic manufacturing and logistics. In this thesis supervised machine learning have been utilized to train a classifiers for detection and recognition of objects in images. The techniques AdaBoost and Random forest have been examined, both are based on decision trees. The thesis has considered two applications: barcode detection and optical character recognition (OCR). Supervised machine learning methods are highly appropriate in both applications since both barcodes and printed characters generally are rather distinguishable. The first part of this thesis examines the use of machine learning for barcode detection in images, both traditional 1D-barcodes and the more recent Maxi-codes, which is a type of two-dimensional barcode. In this part the focus has been to train classifiers with the technique AdaBoost. The Maxi-code detection is mainly done with Local binary pattern features. For detection of 1D-codes, features are calculated from the structure tensor. The classifiers have been evaluated with around 200 real test images, containing barcodes, and shows promising results. The second part of the thesis involves optical character recognition. The focus in this part has been to train a Random forest classifier by using the technique point pair features. The performance has also been compared with the more proven and widely used Haar-features. Although, the result shows that Haar-features are superior in terms of accuracy. Nevertheless the conclusion is that point pairs can be utilized as features for Random forest in OCR.
108

Um estudo sobre reconhecimento visual de caracteres através de redes neurais

Osorio, Fernando Santos January 1991 (has links)
Este trabalho apresenta um estudo sabre reconhecimento visual de caracteres através da utilização das redes neurais. São abordados os assuntos referentes ao Processamento Digital de Imagens, aos sistemas de reconhecimento de caracteres, e as redes neurais. Ao final é apresentada uma proposta de implementação de um sistema OCR orientado ao reconhecimento de caracteres impressos, que utiliza uma rede neural desenvolvida especificamente para esta aplicação. O sistema proposto, que é denominado de sistema N2OCR, possui um protótipo implementado que também é descrito neste trabalho. Em relação ao Processamento Digital de Imagens são apresentados diversos temas, abrangendo os assuntos referentes à aquisição de imagens, ao tratamento das imagens e ao reconhecimento de padrões. A respeito da aquisição de imagens são destacados os aspectos referentes aos dispositivos de aquisição e os tipos de imagens obtidas através destes. Sobre o tratamento de imagens são abordados os aspectos referentes a imagens textuais, incluindo: halftoning, geração e modificação de histograma, limiarização e operações de filtragem. Quanto ao reconhecimento de padrões é feita uma breve análise das técnicas relacionadas a este tema. Os diversos tipos de sistemas de reconhecimento de caracteres são abordados, assim coma as técnicas e algoritmos empregados por estes. Além destes tópicos é apresentada uma discussão a respeito da avaliação dos resultados obtidos por estes sistemas, assim como é feita uma análise das principais dificuldades enfrentadas por estas aplicações. Neste trabalho é feita uma apresentação a respeito das redes neurais, suas características, histórico e evolução das pesquisas nesta área. É feita uma descrição dos principais modelos de redes neurais em destaque na atualidade: Perceptron, Adaline, Madaline, redes multinível, ART, modelo de Hopfield, máquina de Boltzmann, BAM e modelo de Kohonen. A partir da análise dos diferentes modelos de redes neurais empregados na atualidade, chega-se a proposta de um novo modelo de rede a ser utilizado pelo sistema N2OCR. São descritos os itens referentes ao aprendizado, ao reconhecimento e as possíveis extensões deste novo modelo. Também é abordada a possibilidade de implementação de um hardware dedicado para este modelo. No final deste trabalho é fornecida uma visão global do sistema N2OCR, descrevendo cada um de seus módulos. Também é feita uma descrição do protótipo implementado e de suas funções. / This work presents a study of visual character recognition using neural networks. It describes some aspects related to Digital Image Processing, character recognition systems and neural networks. The implementation proposal of one OCR system, for printed character recognition, is also presented. This system uses one neural network specifically developed for this purpose. The OCR system, named N2OCR, has a prototype implementation, which is also described. Several topics related to Digital Image Processing are presented, including some referent to image acquisition, image processing and pattern recognition. Some aspects on image acquisiton are treated, like acquisition equipments and kinds of image data obtained from those equipments. The following items about text image processing are mentioned: halftoning, hystogram generation and alteration, thresholding and filtering operations. A brief analysis about pattern recognition related to this theme is done. Different kinds of character recognition systems are described, as the techniques and algorithms used by them. Besides, a di cussi on about performance estimation of this OCR systems is done, including typical OCR problems description and analysis. In this work, neural networks are presented, describing their characteristics, historical aspects and research evolution in this field. Different famous neural network models are described: Perceptron, Adaline, Madaline, multilevel networks. ART, Hopfield's model , Boltzmann machine, BAM and Kohonen's model. From the analysis of such different neural network models, we arrive to a proposal of a new neural net model, where are described items related to learning, recognition and possible model extensions. A possible hardware implementation of this model is also presented. A global vision of N2OCR system is presented at the end of this work, describing each of its modules. A description of the prototype implementation and functions is also provided.
109

Um estudo sobre reconhecimento visual de caracteres através de redes neurais

Osorio, Fernando Santos January 1991 (has links)
Este trabalho apresenta um estudo sabre reconhecimento visual de caracteres através da utilização das redes neurais. São abordados os assuntos referentes ao Processamento Digital de Imagens, aos sistemas de reconhecimento de caracteres, e as redes neurais. Ao final é apresentada uma proposta de implementação de um sistema OCR orientado ao reconhecimento de caracteres impressos, que utiliza uma rede neural desenvolvida especificamente para esta aplicação. O sistema proposto, que é denominado de sistema N2OCR, possui um protótipo implementado que também é descrito neste trabalho. Em relação ao Processamento Digital de Imagens são apresentados diversos temas, abrangendo os assuntos referentes à aquisição de imagens, ao tratamento das imagens e ao reconhecimento de padrões. A respeito da aquisição de imagens são destacados os aspectos referentes aos dispositivos de aquisição e os tipos de imagens obtidas através destes. Sobre o tratamento de imagens são abordados os aspectos referentes a imagens textuais, incluindo: halftoning, geração e modificação de histograma, limiarização e operações de filtragem. Quanto ao reconhecimento de padrões é feita uma breve análise das técnicas relacionadas a este tema. Os diversos tipos de sistemas de reconhecimento de caracteres são abordados, assim coma as técnicas e algoritmos empregados por estes. Além destes tópicos é apresentada uma discussão a respeito da avaliação dos resultados obtidos por estes sistemas, assim como é feita uma análise das principais dificuldades enfrentadas por estas aplicações. Neste trabalho é feita uma apresentação a respeito das redes neurais, suas características, histórico e evolução das pesquisas nesta área. É feita uma descrição dos principais modelos de redes neurais em destaque na atualidade: Perceptron, Adaline, Madaline, redes multinível, ART, modelo de Hopfield, máquina de Boltzmann, BAM e modelo de Kohonen. A partir da análise dos diferentes modelos de redes neurais empregados na atualidade, chega-se a proposta de um novo modelo de rede a ser utilizado pelo sistema N2OCR. São descritos os itens referentes ao aprendizado, ao reconhecimento e as possíveis extensões deste novo modelo. Também é abordada a possibilidade de implementação de um hardware dedicado para este modelo. No final deste trabalho é fornecida uma visão global do sistema N2OCR, descrevendo cada um de seus módulos. Também é feita uma descrição do protótipo implementado e de suas funções. / This work presents a study of visual character recognition using neural networks. It describes some aspects related to Digital Image Processing, character recognition systems and neural networks. The implementation proposal of one OCR system, for printed character recognition, is also presented. This system uses one neural network specifically developed for this purpose. The OCR system, named N2OCR, has a prototype implementation, which is also described. Several topics related to Digital Image Processing are presented, including some referent to image acquisition, image processing and pattern recognition. Some aspects on image acquisiton are treated, like acquisition equipments and kinds of image data obtained from those equipments. The following items about text image processing are mentioned: halftoning, hystogram generation and alteration, thresholding and filtering operations. A brief analysis about pattern recognition related to this theme is done. Different kinds of character recognition systems are described, as the techniques and algorithms used by them. Besides, a di cussi on about performance estimation of this OCR systems is done, including typical OCR problems description and analysis. In this work, neural networks are presented, describing their characteristics, historical aspects and research evolution in this field. Different famous neural network models are described: Perceptron, Adaline, Madaline, multilevel networks. ART, Hopfield's model , Boltzmann machine, BAM and Kohonen's model. From the analysis of such different neural network models, we arrive to a proposal of a new neural net model, where are described items related to learning, recognition and possible model extensions. A possible hardware implementation of this model is also presented. A global vision of N2OCR system is presented at the end of this work, describing each of its modules. A description of the prototype implementation and functions is also provided.
110

Optical character recognition using deep learning / Reconhecimento óptico de caracteres usando aprendizado profundo

Santos, Claudio Filipi Gonçalves dos 26 April 2018 (has links)
Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-24T11:51:59Z No. of bitstreams: 1 optical-character-recognition-16052018.pdf: 8334356 bytes, checksum: 8dd05363a96c946ae1f6d665edc80d09 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724) Problema 02) Corrigir a ordem das páginas pré-textuais; a ordem correta (capa, folha de rosto, dedicatória, agradecimentos, epígrafe, resumo na língua vernácula, resumo em língua estrangeira, listas de ilustrações, de tabelas, de abreviaturas, de siglas e de símbolos e sumário). Problema 03) Faltam as palavras-chave no resumo e no abstracts. Na página da Seção de pós-graduação, em Instruções para Qualificação e Defesas de Dissertação e Tese, você pode acessar o modelo das páginas pré-textuais. Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente. Agradecemos a compreensão. on 2018-05-24T20:59:53Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T00:43:19Z No. of bitstreams: 1 optical-character-recognition-16052018.pdf: 11084990 bytes, checksum: 6f8d7431cd17efd931a31c0eade10c65 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724) Problema 02) A paginação deve ser sequencial, iniciando a contagem na folha de rosto e mostrando o número a partir da introdução, a ficha catalográfica ficará após a folha de rosto e não deverá ser contada. Problema 03) Na descrição do item: Título em outro idioma – Se você colocou no título em inglês deve por neste campo o título em outro idioma (ex: português, espanhol, francês...) Estamos encaminhando via e-mail o template/modelo para que você possa fazer as correções. Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente. Agradecemos a compreensão. on 2018-05-25T15:22:45Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T15:52:53Z No. of bitstreams: 1 optical-character-recognition-16052018.pdf: 11089966 bytes, checksum: d6c863077a995bd2519035b8a3e97c80 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724) Agradecemos a compreensão. on 2018-05-25T18:03:19Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T18:08:09Z No. of bitstreams: 1 Claudio Filipi Gonçalves dos Santos Corrigido Biblioteca.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) / Approved for entry into archive by Elza Mitiko Sato null (elzasato@ibilce.unesp.br) on 2018-05-25T18:51:24Z (GMT) No. of bitstreams: 1 santos_cfg_me_sjrp.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) / Made available in DSpace on 2018-05-25T18:51:24Z (GMT). No. of bitstreams: 1 santos_cfg_me_sjrp.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) Previous issue date: 2018-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Detectores óticos de caracteres, ou Optical Character Recognition (OCR) é o nome dado à técnologia de traduzir dados de imagens em arquivo de texto. O objetivo desse projeto é usar aprendizagem profunda, também conhecido por aprendizado hierárquico ou Deep Learning para o desenvolvimento de uma aplicação com a habilidade de detectar áreas candidatas, segmentar esses espaços dan imagem e gerar o texto contido na figura. Desde 2006, Deep Learning emergiu como uma nova área em aprendizagem de máquina. Em tempos recentes, as técnicas desenvolvidas em pesquisas com Deep Learning têm influenciado e expandido escopo, incluindo aspectos chaves nas área de inteligência artificial e aprendizagem de máquina. Um profundo estudo foi conduzido com a intenção de desenvolver um sistema OCR usando apenas arquiteturas de Deep Learning.A evolução dessas técnicas, alguns trabalhos passados e como esses trabalhos influenciaram o desenvolvimento dessa estrutura são explicados nesse texto. Essa tese demonstra com resultados como um classificador de caracteres foi desenvolvido. Em seguida é explicado como uma rede neural pode ser desenvolvida para ser usada como um detector de objetos e como ele pode ser transformado em um detector de texto. Logo após é demonstrado como duas técnicas diferentes de Deep Learning podem ser combinadas e usadas na tarefa de transformar segmentos de imagens em uma sequência de caracteres. Finalmente é demonstrado como o detector de texto e o sistema transformador de imagem em texto podem ser combinados para se desenvolver um sistema OCR completo que detecta regiões de texto nas imagens e o que está escrito nessa região. Esse estudo demonstra que a idéia de usar apenas estruturas de Deep Learning podem ter performance melhores do técnicas baseadas em outras áreas da computação como por exemplo o processamento de imagens. Para detecção de texto foi alcançado mais de 70% de precisão quando uma arquitetura mais complexa foi usada, por volta de 69% de traduções de imagens para texto corretas e por volta de 50% na tarefa ponta-à-ponta de detectar as áreas de texto e traduzi-las em sequência de caracteres. / Optical Character Recognition (OCR) is the name given to the technology used to translate image data into a text file. The objective of this project is to use Deep Learning techniques to develop a software with the ability to segment images, detecting candidate characters and generating textthatisinthepicture. Since2006,DeepLearningorhierarchicallearning, emerged as a new machine learning area. Over recent years, the techniques developed from deep learning research have influenced and expanded scope, including key aspects of artificial intelligence and machine learning. A thorough study was carried out in order to develop an OCR system using only Deep Learning architectures. It is explained the evolution of these techniques, some past works and how they influenced thisframework’sdevelopment. Inthisthesisitisdemonstratedwithresults how a single character classifier was developed. Then it is explained how a neural network can be developed to be an object detector and how to transform this object detector into a text detector. After that it shows how a set of two Deep Learning techniques can be combined and used in the taskoftransformingacroppedregionofanimageinastringofcharacters. Finally, it demonstrates how the text detector and the Image-to-Text systemswerecombinedinordertodevelopafullend-to-endOCRsystemthat detects the regions of a given image containing text and what is written in this region. It shows the idea of using only Deep Learning structures can outperform other techniques based on other areas like image processing. In text detection it reached over 70% of precision when a more complex architecture was used, around 69% of correct translation of image-to-text areasandaround50%onend-to-endtaskofdetectingareasandtranslating them into text. / 1623685

Page generated in 0.0838 seconds