• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 54
  • 23
  • 18
  • 16
  • 8
  • 7
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 154
  • 38
  • 31
  • 28
  • 28
  • 28
  • 26
  • 24
  • 23
  • 23
  • 18
  • 17
  • 16
  • 15
  • 13
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
131

Detekce oblasti otisku prstu v obraze / Detection of Fingerprint Area in Image

Doležel, Michal January 2010 (has links)
This master's thesis deals with proposal and implementation of system for detection of fingerprint area in image. The first task was to elaborate the theory which is necessary for understanding the image fingerprint area detection problems. It is also necessary to propose a specific system for image fingerprint area detection where it is possible to enhance or improve present methods or design a new one. The proposed system making use of selected method will be able to avoid all problems arising during fingerprint area detection. Description of proposed system implementation and testing on the fingerprint database is described in following part. In last part all the achieved results are discussed.
132

Fazifikacija Gaborovog filtra i njena primena u detekciji registarskih tablica / Fuzzification of Gabor Filter for License Plate Detection Application

Tadić Vladimir 06 June 2018 (has links)
<p>Disertacija prikazuje novi algoritam za detekciju i izdvajanje registarskih tablica iz slike vozila koristeći fazi 2D Gaborov filtar. Parametri filtra: orijentacija i talasna dužina su fazifikovani u cilju optimizacije odziva Gaborovog filtra i postizanja dodatne selektivnosti filtra. Prethodno navedeni parametri dominiraju u rezultatu filtriranja. Bellova i trougaona funkcija pripadnosti pokazale su se kao najbolji izbor pri fazifikaciji parametara filtra. Algoritam je evaluiran nad vi&scaron;e baza slika i postignuti su zadovoljavajući rezultati. Komponente od interesa su efikasno izdvojene i postignuta značajna otpornost na &scaron;um i degradaciju na slici.</p> / <p>The thesis presents a new algorithm for detection and extraction of license plates from a vehicle image using a fuzzy two-dimensional Gabor filter. The filter parameters, orientation and wavelengths are fuzzified to optimize the Gabor filter&rsquo;s response and achieve a greater selectivity. It was concluded that Bell&rsquo;s function and triangular membership function are the most efficient methods for fuzzification. Algorithm was evaluated on several databases and has provided satisfactory results. The components of interest were efficiently extracted, and the procedure was found to be very noise-resistant.</p>
133

Analyse de mouvements faciaux à partir d'images vidéo

Dahmane, Mohamed 12 1900 (has links)
Lors d'une intervention conversationnelle, le langage est supporté par une communication non-verbale qui joue un rôle central dans le comportement social humain en permettant de la rétroaction et en gérant la synchronisation, appuyant ainsi le contenu et la signification du discours. En effet, 55% du message est véhiculé par les expressions faciales, alors que seulement 7% est dû au message linguistique et 38% au paralangage. L'information concernant l'état émotionnel d'une personne est généralement inférée par les attributs faciaux. Cependant, on ne dispose pas vraiment d'instruments de mesure spécifiquement dédiés à ce type de comportements. En vision par ordinateur, on s'intéresse davantage au développement de systèmes d'analyse automatique des expressions faciales prototypiques pour les applications d'interaction homme-machine, d'analyse de vidéos de réunions, de sécurité, et même pour des applications cliniques. Dans la présente recherche, pour appréhender de tels indicateurs observables, nous essayons d'implanter un système capable de construire une source consistante et relativement exhaustive d'informations visuelles, lequel sera capable de distinguer sur un visage les traits et leurs déformations, permettant ainsi de reconnaître la présence ou absence d'une action faciale particulière. Une réflexion sur les techniques recensées nous a amené à explorer deux différentes approches. La première concerne l'aspect apparence dans lequel on se sert de l'orientation des gradients pour dégager une représentation dense des attributs faciaux. Hormis la représentation faciale, la principale difficulté d'un système, qui se veut être général, est la mise en œuvre d'un modèle générique indépendamment de l'identité de la personne, de la géométrie et de la taille des visages. La démarche qu'on propose repose sur l'élaboration d'un référentiel prototypique à partir d'un recalage par SIFT-flow dont on démontre, dans cette thèse, la supériorité par rapport à un alignement conventionnel utilisant la position des yeux. Dans une deuxième approche, on fait appel à un modèle géométrique à travers lequel les primitives faciales sont représentées par un filtrage de Gabor. Motivé par le fait que les expressions faciales sont non seulement ambigües et incohérentes d'une personne à une autre mais aussi dépendantes du contexte lui-même, à travers cette approche, on présente un système personnalisé de reconnaissance d'expressions faciales, dont la performance globale dépend directement de la performance du suivi d'un ensemble de points caractéristiques du visage. Ce suivi est effectué par une forme modifiée d'une technique d'estimation de disparité faisant intervenir la phase de Gabor. Dans cette thèse, on propose une redéfinition de la mesure de confiance et introduisons une procédure itérative et conditionnelle d'estimation du déplacement qui offrent un suivi plus robuste que les méthodes originales. / In a face-to-face talk, language is supported by nonverbal communication, which plays a central role in human social behavior by adding cues to the meaning of speech, providing feedback, and managing synchronization. Information about the emotional state of a person is usually carried out by facial attributes. In fact, 55% of a message is communicated by facial expressions whereas only 7% is due to linguistic language and 38% to paralanguage. However, there are currently no established instruments to measure such behavior. The computer vision community is therefore interested in the development of automated techniques for prototypic facial expression analysis, for human computer interaction applications, meeting video analysis, security and clinical applications. For gathering observable cues, we try to design, in this research, a framework that can build a relatively comprehensive source of visual information, which will be able to distinguish the facial deformations, thus allowing to point out the presence or absence of a particular facial action. A detailed review of identified techniques led us to explore two different approaches. The first approach involves appearance modeling, in which we use the gradient orientations to generate a dense representation of facial attributes. Besides the facial representation problem, the main difficulty of a system, which is intended to be general, is the implementation of a generic model independent of individual identity, face geometry and size. We therefore introduce a concept of prototypic referential mapping through a SIFT-flow registration that demonstrates, in this thesis, its superiority to the conventional eyes-based alignment. In a second approach, we use a geometric model through which the facial primitives are represented by Gabor filtering. Motivated by the fact that facial expressions are not only ambiguous and inconsistent across human but also dependent on the behavioral context; in this approach, we present a personalized facial expression recognition system whose overall performance is directly related to the localization performance of a set of facial fiducial points. These points are tracked through a sequence of video frames by a modification of a fast Gabor phase-based disparity estimation technique. In this thesis, we revisit the confidence measure, and introduce an iterative conditional procedure for displacement estimation that improves the robustness of the original methods.
134

Ανάπτυξη ολοκληρωμένου συστήματος εκτίμησης της πυκνότητας του μαστού από εικόνες μαστογραφίας

Χατζηστέργος, Σεβαστιανός 05 December 2008 (has links)
Αντικείμενο της παρούσας εργασία είναι ο υπολογισμός και η ταξινόμηση, με βάση το σύστημα, BIRADS της πυκνότητας του μαστού από εικόνες μαστογραφίας. Στα πλαίσια της προσπάθειας αυτής αναπτύχθηκε ολοκληρωμένο υπολογιστικό σύστημα σε γραφικό περιβάλλον ως λογισμικό πακέτο, σε γλώσσα Visual C++ .NET . Το υπολογιστικό αυτό σύστημα δέχεται σαν είσοδο εικόνες μαστογραφίας σε οποιοδήποτε από τα δημοφιλή bitmap format εικόνων όπως jpeg και tiff καθώς και DICOM αρχεία. Η λειτουργία του μπορεί να χωριστεί σε τρία στάδια: το στάδιο της προεπεξεργασίας, το στάδιο απομόνωσης της περιοχής του μαστού και το στάδιο καθορισμού της πυκνότητας του μαστού. Στο πρώτο στάδιο παρέχονται μια σειρά από στοιχειώδη εργαλεία επεξεργασίας εικόνας όπως εργαλεία περιστροφής, αποκοπής και αλλαγής αντίθεσης . Επιπρόσθετα παρέχεται η δυνατότητα Ανισοτροπικού Φιλτραρίσματος της εικόνας. Στο δεύτερο στάδιο γίνεται η απομόνωση της περιοχής του μαστού είτε απευθείας από τον χρήστη είτε αυτόματα με χρήση των ιδιοτήτων του μονογονικού (monogenic) σήματος για την αφαίρεση του παρασκηνίου (background) καθώς και κυματιδίων Gabor για τον διαχωρισμού του θωρακικού μυός. Στο τρίτο στάδιο παρέχεται η δυνατότητα ταξινόμησης της πυκνότητας του μαστού από τον χρήστη με τον καθορισμό κατάλληλου κατωφλίου των επιπέδων γκρίζου της εικόνας αλλά και η δυνατότητα αυτόματης ταξινόμησης της πυκνότητας του μαστού κατά BIRADS με χρήση Δομικών Στοιχείων Υφής (textons) και της τεχνικής pLSA. Όλες οι παραπάνω λειτουργίες παρέχονται μέσω μίας κατά το δυνατόν φιλικότερης προς τον χρήστη διεπαφής. / The present thesis aims at the classification of breast tissue according to BIRADS system based on texture features. To this end an integrated software system was developed in visual C ++. The system takes as inputs pictures in most of the popular bitmap formats like .jpeg and .till as well as DICOM. The functionality of the system is provided by three modules: (a) pre-processing module, (b) breast segmentation module and (c) the breast tissue density classification module. In the pre-processing module a set tools for image manipulation (rotation, crop, gray level adjustment) are available which are accompanied by the ability to perform anisotropic filtering to the input image. In the second module, the user has the ability to interactively define the actual borders of the breast or ask the system to perform it automatically. Automatic segmentation is a two step procedure; in the first step breast tissue is separated from its background by using the characteristics of monogenic signals, while in the second step the pectoral muscle region is subtracted using Gabor wavelets. In the density classification module the user can either ask for a calculation of breast density based on user-defined grey level threshold or perform an automatic BIRADS-based classification using texture characteristics in conjunction with Probabilistic Latent Semantic Analysis (pLSA) algorithm. Special emphasis was given to the development of a functional and user-friendly interface.
135

Analyse de mouvements faciaux à partir d'images vidéo

Dahmane, Mohamed 12 1900 (has links)
Lors d'une intervention conversationnelle, le langage est supporté par une communication non-verbale qui joue un rôle central dans le comportement social humain en permettant de la rétroaction et en gérant la synchronisation, appuyant ainsi le contenu et la signification du discours. En effet, 55% du message est véhiculé par les expressions faciales, alors que seulement 7% est dû au message linguistique et 38% au paralangage. L'information concernant l'état émotionnel d'une personne est généralement inférée par les attributs faciaux. Cependant, on ne dispose pas vraiment d'instruments de mesure spécifiquement dédiés à ce type de comportements. En vision par ordinateur, on s'intéresse davantage au développement de systèmes d'analyse automatique des expressions faciales prototypiques pour les applications d'interaction homme-machine, d'analyse de vidéos de réunions, de sécurité, et même pour des applications cliniques. Dans la présente recherche, pour appréhender de tels indicateurs observables, nous essayons d'implanter un système capable de construire une source consistante et relativement exhaustive d'informations visuelles, lequel sera capable de distinguer sur un visage les traits et leurs déformations, permettant ainsi de reconnaître la présence ou absence d'une action faciale particulière. Une réflexion sur les techniques recensées nous a amené à explorer deux différentes approches. La première concerne l'aspect apparence dans lequel on se sert de l'orientation des gradients pour dégager une représentation dense des attributs faciaux. Hormis la représentation faciale, la principale difficulté d'un système, qui se veut être général, est la mise en œuvre d'un modèle générique indépendamment de l'identité de la personne, de la géométrie et de la taille des visages. La démarche qu'on propose repose sur l'élaboration d'un référentiel prototypique à partir d'un recalage par SIFT-flow dont on démontre, dans cette thèse, la supériorité par rapport à un alignement conventionnel utilisant la position des yeux. Dans une deuxième approche, on fait appel à un modèle géométrique à travers lequel les primitives faciales sont représentées par un filtrage de Gabor. Motivé par le fait que les expressions faciales sont non seulement ambigües et incohérentes d'une personne à une autre mais aussi dépendantes du contexte lui-même, à travers cette approche, on présente un système personnalisé de reconnaissance d'expressions faciales, dont la performance globale dépend directement de la performance du suivi d'un ensemble de points caractéristiques du visage. Ce suivi est effectué par une forme modifiée d'une technique d'estimation de disparité faisant intervenir la phase de Gabor. Dans cette thèse, on propose une redéfinition de la mesure de confiance et introduisons une procédure itérative et conditionnelle d'estimation du déplacement qui offrent un suivi plus robuste que les méthodes originales. / In a face-to-face talk, language is supported by nonverbal communication, which plays a central role in human social behavior by adding cues to the meaning of speech, providing feedback, and managing synchronization. Information about the emotional state of a person is usually carried out by facial attributes. In fact, 55% of a message is communicated by facial expressions whereas only 7% is due to linguistic language and 38% to paralanguage. However, there are currently no established instruments to measure such behavior. The computer vision community is therefore interested in the development of automated techniques for prototypic facial expression analysis, for human computer interaction applications, meeting video analysis, security and clinical applications. For gathering observable cues, we try to design, in this research, a framework that can build a relatively comprehensive source of visual information, which will be able to distinguish the facial deformations, thus allowing to point out the presence or absence of a particular facial action. A detailed review of identified techniques led us to explore two different approaches. The first approach involves appearance modeling, in which we use the gradient orientations to generate a dense representation of facial attributes. Besides the facial representation problem, the main difficulty of a system, which is intended to be general, is the implementation of a generic model independent of individual identity, face geometry and size. We therefore introduce a concept of prototypic referential mapping through a SIFT-flow registration that demonstrates, in this thesis, its superiority to the conventional eyes-based alignment. In a second approach, we use a geometric model through which the facial primitives are represented by Gabor filtering. Motivated by the fact that facial expressions are not only ambiguous and inconsistent across human but also dependent on the behavioral context; in this approach, we present a personalized facial expression recognition system whose overall performance is directly related to the localization performance of a set of facial fiducial points. These points are tracked through a sequence of video frames by a modification of a fast Gabor phase-based disparity estimation technique. In this thesis, we revisit the confidence measure, and introduce an iterative conditional procedure for displacement estimation that improves the robustness of the original methods.
136

Foreign heroes and Catholic villains : radical Protestant propaganda of the Thirty Years' War (1618-1648)

Foster, Darren Paul January 2012 (has links)
My dissertation examines radical Protestant propaganda of the Thirty Years’ War (1618-1648). It investigates the radicals’ depiction of foreign allies of the German Protestants as well as the presentation of German Catholic leaders in pamphlets and broadsheets of the war. Through analysis of representative sources portraying Prince Bethlen Gabor of Transylvania and King Gustavus Adolphus of Sweden, it examines the arguments used to gain support for foreign Protestant figureheads among the moderates of the Protestant camp. The dissertation also investigates the presentation of Emperor Ferdinand II and Duke Maximilian of Bavaria in order to determine how propagandists denounced German Catholic rulers as no longer worthy of German Protestant allegiance or tolerance. My conclusion demonstrates how radical propagandists sought to change moderate Protestant attitudes towards German Catholic rulers and foreign allies through a cohesive and sophisticated campaign.
137

Stochastic image models and texture synthesis / Modèles d’image aléatoires et synthèse de texture

Galerne, Bruno 09 December 2010 (has links)
Cette thèse est une étude de modèles d'image aléatoires avec des applications en synthèse de texture.Dans la première partie de la thèse, des algorithmes de synthèse de texture basés sur le modèle shot noise sont développés. Dans le cadre discret, deux processus aléatoires, à savoir le shot noise discret asymptotique et le bruit à phase aléatoire, sont étudiés. On élabore ensuite un algorithme rapide de synthèse de texture basé sur ces processus. De nombreuses expériences démontrent que cet algorithme permet de reproduire une certaine classe de textures naturelles que l'on nomme micro-textures. Dans le cadre continu, la convergence gaussienne des modèles shot noise est étudiée d'avantage et de nouvelles bornes pour la vitesse de cette convergence sont établies. Enfin, on présente un nouvel algorithme de synthèse de texture procédurale par l'exemple basé sur le récent modèle Gabor noise. Cet algorithme permet de calculer automatiquement un modèle procédural représentant des micro-textures naturelles.La deuxième partie de la thèse est consacrée à l'étude du processus feuilles mortes transparentes (FMT), un nouveau modèle germes-grains obtenu en superposant des objets semi-transparents. Le résultat principal de cette partie montre que, lorsque la transparence des objets varie, le processus FMT fournit une famille de modèles variant du modèle feuilles mortes à un champ gaussien. Dans la troisième partie de la thèse, les champs aléatoires à variation bornés sont étudiés et on établit des résultats généraux sur le calcul de la variation totale moyenne de ces champs. En particulier, ces résultats généraux permettent de calculer le périmètre moyen des ensembles aléatoires et de calculer explicitement la variation totale moyenne des modèles germes-grains classiques. / This thesis is a study of stochastic image models with applications to texture synthesis. Most of the stochastic texture models under investigation are germ-grain models. In the first part of the thesis, texture synthesis algorithms relying on the shot noise model are developed. In the discrete framework, two different random processes, namely the asymptotic discrete spot noise and the random phase noise, are theoretically and experimentally studied. A fast texture synthesis algorithm relying on these random processes is then elaborated. Numerous results demonstrate that the algorithm is able to reproduce a class of real-world textures which we call micro-textures. In the continuous framework, the Gaussian convergence of shot noise models is further studied and new bounds for the rate of this convergence are established. Finally, a new algorithm for procedural texture synthesis from example relying on the recent Gabor noise model is presented. This new algorithm permits to automatically compute procedural models for real-world micro-textures. The second part of the thesis is devoted to the introduction and study of the transparent dead leaves (TDL) process, a new germ-grain model obtained by superimposing semi-transparent objects. The main result of this part shows that, when varying the transparency of the objects, the TDL process provides a family of models varying from the dead leaves model to a Gaussian random field. In the third part of the thesis, general results on random fields with bounded variation are established with an emphasis on the computation of the mean total variation of random fields. As particular cases of interest, these general results permit the computation of the mean perimeter of random sets and of the mean total variation of classical germ-grain models.
138

Etude psychophysique et modélisation des traitements de bas niveau sous-tendant la vision des contours des objets

Tzvetanov, Tzvetomir 26 November 2003 (has links) (PDF)
Les mécanismes de formation des contours sont connus pour avoir des propriétés fonctionnelles différentes. Une étude de l'intégration de l'information spatiale entre éléments de lignes coaxiaux a été effectuée. Deux régimes sont présents, différenciés à partir d'une séparation spatiale d'environ un quart de degré d'angle visuel : les régimes courte et longue distance. Le premier a été intensivement étudié, contrairement au deuxième. En utilisant une approche expérimentale et par modélisation, les caractéristiques fonctionnelles du régime longue distance ont été mesurées et attribuées en partie à l'aire visuelle primaire de l'Homme. Les expériences ont permis d'obtenir les différentes caractéristiques psychophysiques. Avec des stimuli de polarités positives, le régime courte distance a pour limites spatiales 0 et un tiers de degré, et est sensible à l'intensité de l'inducteur (Expérience 1). Le régime longue distance a pour limites spatiales un tiers de degré et 2,5 degrés, et n'est pas sensible à l'intensité de l'inducteur (Expérience 1). Le régime longue distance semble être de manière générale facilitateur pour la détection de la cible (Expérience 2 et 5), quelles que soient la polarité et l'intensité de l'inducteur. Par contre, des différences entre polarités opposées et identiques des stimuli sont présentes pour ce régime. Les interactions OFF-vers-ON sont de manière générale beaucoup moins facilitatrices que les autres interactions dans le régime longue distance (Expérience 2 et 5). La luminance du fond sur lequel sont présentés les stimuli semblait intervenir dans les interactions (Expérience 2), mais l'étude contrôle sur des sujets naïfs n'a pas montré d'effet du fond (Expérience 5). En fonction de la séparation spatiale entre les deux stimuli, il est possible d'obtenir une interaction entre les deux régimes si le stimulus inducteur est placé de manière à ce que les deux régimes soient en compétition pour la détection de la cible (Expérience 3). Pour des polarités positives des stimuli, le régime longue distance s'est avéré posséder une plasticité visuelle spécifique à la direction d'alignement des stimuli (Expérience 4) : la direction verticale a montré une augmentation des seuils de détection des sujets au début des expériences, et la direction horizontale une diminution des seuils de détection des sujets au début des expériences. Par la suite, nous avons tenté de modéliser ces résultats expérimentaux au moyen du modèle LAMINART. Ce modèle simule certaines propriétés fonctionnelles des neurones du cortex visuel primaire (V1). Celui-ci permet de reproduire de manière globale les effets dus aux polarités, mais ne semble pas être sensible au facteur "séparation spatiale". Les résultats de cette thèse soutiennent l'idée que les deux régimes d'intégration de l'information spatiale d'iso-orientation sont principalement présents dans le cortex visuel primaire de l'Homme.
139

Audio editing in the time-frequency domain using the Gabor Wavelet Transform

Hammarqvist, Ulf January 2011 (has links)
Visualization, processing and editing of audio, directly on a time-frequency surface, is the scope of this thesis. More precisely the scalogram produced by a Gabor Wavelet transform is used, which is a powerful alternative to traditional techinques where the wave form is the main visual aid and editting is performed by parametric filters. Reconstruction properties, scalogram design and enhancements as well audio manipulation algorithms are investigated for this audio representation.The scalogram is designed to allow a flexible choice of time-frequency ratio, while maintaining high quality reconstruction. For this mean, the Loglet is used, which is observed to be the most suitable filter choice.  Re-assignmentare tested, and a novel weighting function using partial derivatives of phase is proposed.  An audio interpolation procedure is developed and shown to perform well in listening tests.The feasibility to use the transform coefficients directly for various purposes is investigated. It is concluded that Pitch shifts are hard to describe in the framework while noise thresh holding works well. A downsampling scheme is suggested that saves on operations and memory consumption as well as it speeds up real world implementations significantly. Finally, a Scalogram 'compression' procedure is developed, allowing the caching of an approximate scalogram.
140

Analysis Of Multi-lingual Documents With Complex Layout And Content

Pati, Peeta Basa 11 1900 (has links)
A document image, beside text, may contain pictures, graphs, signatures, logos, barcodes, hand-drawn sketches and/or seals. Further, the text blocks in an image may be in Manhattan or any complex layout. Document Layout Analysis is an important preprocessing step before subjecting any such image to OCR. Here, the image with complex layout and content is segmented into its constituent components. For many present day applications, separating the text from the non-text blocks is sufficient. This enables the conversion of the text elements present in the image to their corresponding editable form. In this work, an effort has been made to separate the text areas from the various kinds of possible non-text elements. The document images may have been obtained from a scanner or camera. If the source is a scanner, there is control on the scanning resolution, and lighting of the paper surface. Moreover, during the scanning process, the paper surface remains parallel to the sensor surface. However, when an image is obtained through a camera, these advantages are no longer available. Here, an algorithm is proposed to separate the text present in an image from the clutter, irrespective of the imaging technology used. This is achieved by using both the structural and textural information of the text present in the gray image. A bank of Gabor filters characterizes the statistical distribution of the text elements in the document. A connected component based technique removes certain types of non-text elements from the image. When a camera is used to acquire document images, generally, along with the structural and textural information of the text, color information is also obtained. It can be assumed that text present in an image has a certain amount of color homogeneity. So, a graph-theoretical color clustering scheme is employed to segment the iso-color components of the image. Each iso-color image is then analyzed separately for its structural and textural properties. The results of such analyses are merged with the information obtained from the gray component of the image. This helps to separate the colored text areas from the non-text elements. The proposed scheme is computationally intensive, because the separation of the text from non-text entities is performed at the pixel level Since any entity is represented by a connected set of pixels, it makes more sense to carry out the separation only at specific points, selected as representatives of their neighborhood. Harris' operator evaluates an edge-measure at each pixel and selects pixels, which are locally rich on this measure. These points are then employed for separating text from non-text elements. Many government documents and forms in India are bi-lingual or tri-lingual in nature. Further, in school text books, it is common to find English words interspersed within sentences in the main Indian language of the book. In such documents, successive words in a line of text may be of different scripts (languages). Hence, for OCR of these documents, the script must be recognized at the level of words, rather than lines or paragraphs. A database of about 20,000 words each from 11 Indian scripts1 is created. This is so far the largest database of Indian words collected and deployed for script recognition purpose. Here again, a bank of 36 Gabor filters is used to extract the feature vector which represents the script of the word. The effectiveness of Gabor features is compared with that of DCT and it is found that Gabor features marginally outperform the DOT. Simple, linear and non-linear classifiers are employed to classify the word in the feature space. It is assumed that a scheme developed to recognize the script of the words would work equally fine for sentences and paragraphs. This assumption has been verified with supporting results. A systematic study has been conducted to evaluate and compare the accuracy of various feature-classifier combinations for word script recognition. We have considered the cases of bi-script and tri-script documents, which are largely available. Average recognition accuracies for bi-script and tri-script cases are 98.4% and 98.2%, respectively. A hierarchical blind script recognizer, involving all eleven scripts has been developed and evaluated, which yields an average accuracy of 94.1%. The major contributions of the thesis are: • A graph theoretic color clustering scheme is used to segment colored text. • A scheme is proposed to separate text from the non-text content of documents with complex layout and content, captured by scanner or camera. • Computational complexity is reduced by performing the separation task on a selected set of locally edge-rich points. • Script identification at word level is carried out using different feature classifier combinations. Gabor features with SVM classifier outperforms any other feature-classifier combinations. A hierarchical blind script recognition algorithm, involving the recognition of 11 Indian scripts, is developed. This structure employs the most efficient feature-classifier combination at each individual nodal point of the tree to maximize the system performance. A sequential forward feature selection algorithm is employed to. select the most discriminating features, in a case by case basis, for script-recognition. The 11 scripts are Bengali, Devanagari, Gujarati, Kannada, Malayalam, Odiya, Puniabi, Roman. Tamil, Telugu and Urdu.

Page generated in 0.0301 seconds