521 |
Approche non supervisée de segmentation de bas niveau dans un cadre de surveillance vidéo d'environnements non contrôlésMartel-Brisson, Nicolas 18 April 2018 (has links)
La présente thèse propose un algorithme de segmentation de bas niveau pour des environnements complexes, allant de scènes intérieures peuplées aux scènes extérieures dynamiques. Basé sur des méthodes d'apprentissage développées pour une séquence vidéo où la caméra est fixe, le système est en mesure d'identifier les sections de l'image appartenant aux objets ou personnes d'avant-plan et ce, en dépit de perturbations temporelles de l'image de l'arrière-plan causées par les ombres, éléments naturels, changements d'illumination, etc. Nous proposons un cadre statistique d'estimation de densité de probabilité basé sur des kernels (KDE). Méthode polyvalente, les KDE requièrent toutefois des séquences d'entraînement où l'activité de l'avant-plan est minimale afin d'obtenir une bonne description initiale de la distribution de l'arrière-plan. Afin d'augmenter la flexibilité de ce type d'approche, nous exploitons la cohérence spatiale des événements d'avant-plan : en minimisant une fonction d'énergie globale par coupure de graphe, nous estimons les probabilités à priori et les densités associées à l'avant et l'arrière-plan pour chaque pixel de la scène. Pour y arriver, des indices tels la dispersion des données, la probabilité associée aux modes dans l'espace RGB, la persistance spatiale des événements et l'entropie relative des régions dans l'image sont utilisés dans un cadre statistique cohérent. Les ombres projetées qui sont détectées lors du processus de soustraction d'arrière-plan induisent des perturbations, tels la distorsion et la fusion des silhouettes, qui nuisent à la performance générale d'algorithmes de plus haut niveau dans un contexte de surveillance vidéo. Deux stratégies sont alors proposées afin de d'éliminer l'ombre projetée de la région d'intérêt. La première méthode utilise la capacité d'apprentissage de l'algorithme de Mixtures de Gaussiennes (GMM) dans le but de caractériser le comportement des ombres projetées sur les surfaces composant l'arrière-plan. La deuxième méthode s'appuie sur les propriétés physiques de l'ombre projetée et d'une mesure de gradient dans un cadre statistique non paramétrique afin d'estimer les valeurs d'atténuation des surfaces ombragées. La méthode permet la différenciation des ombres et de l'avant-plan lorsque ceux-ci partagent des valeurs de chromaticité similaire. Les résultats démontrent que notre approche est efficace dans une multitude de scénarios complexes.
|
522 |
Une méthode de machine à état liquide pour la classification de séries temporelles : A new liquid state machine method for temporal classification / New liquid state machine method for temporal classificationRhéaume, François 19 April 2018 (has links)
L'intérêt envers la neuroscience informatique pour les applications d'intelligence arti- cielle est motivé par plusieurs raisons. Parmi elles se retrouve la rapidité avec laquelle le domaine evolue, promettant de nouvelles capacités pour l'ingénieur. Dans cette thèse, une méthode exploitant les récents avancements en neuroscience informatique est présentée: la machine à état liquide (\liquid state machine"). Une machine à état liquide est un modèle de calcul de données inspiré de la biologie qui permet l'apprentissage sur des ux de données. Le modèle représente un outil prometteur de reconnaissance de formes temporelles. Déjà, il a démontré de bons résultats dans plusieurs applications. En particulier, la reconnaissance de formes temporelles est un problème d'intérêt dans les applications militaires de surveillance telle que la reconnaissance automatique de cibles. Jusqu'à maintenant, la plupart des machines à état liquide crées pour des problèmes de reconnaissance de formes sont demeurées semblables au modèle original. D'un point de vue ingénierie, une question se dégage: comment les machines à état liquide peuvent-elles être adaptées pour améliorer leur aptitude à solutionner des problèmes de reconnaissance de formes temporelles ? Des solutions sont proposées. La première solution suggèrée se concentre sur l'échantillonnage de l'état du liquide. À ce sujet, une méthode qui exploite les composantes fréquentielles du potentiel sur les neurones est définie. La combinaison de différents types de vecteurs d'état du liquide est aussi discutée. Deuxièmement, une méthode pour entrâner le liquide est développée. La méthode utilise la plasticité synaptique à modulation temporelle relative pour modeler le liquide. Une nouvelle approche conditionnée par classe de données est proposée, où différents réseaux de neurones sont entraînés exclusivement sur des classes particuli ères de données. Concernant cette nouvelle approche ainsi que celle concernant l'échantillonnage du liquide, des tests comparatifs ont été effectués avec l'aide de jeux de données simulées et réelles. Les tests permettent de constater que les méthodes présentées surpassent les méthodes conventionnelles de machine à état liquide en termes de taux de reconnaissance. Les résultats sont encore plus encourageants par le fait qu'ils ont été obtenus sans l'optimisation de plusieurs paramètres internes pour les differents jeux de données testés. Finalement, des métriques de l'état du liquide ont été investiguées pour la prédiction de la performance d'une machine à état liquide. / There are a number of reasons that motivate the interest in computational neuroscience for engineering applications of artificial intelligence. Among them is the speed at which the domain is growing and evolving, promising further capabilities for artificial intelligent systems. In this thesis, a method that exploits the recent advances in computational neuroscience is presented: the liquid state machine. A liquid state machine is a biologically inspired computational model that aims at learning on input stimuli. The model constitutes a promising temporal pattern recognition tool and has shown to perform very well in many applications. In particular, temporal pattern recognition is a problem of interest in military surveillance applications such as automatic target recognition. Until now, most of the liquid state machine implementations for spatiotemporal pattern recognition have remained fairly similar to the original model. From an engineering perspective, a challenge is to adapt liquid state machines to increase their ability for solving practical temporal pattern recognition problems. Solutions are proposed. The first one concentrates on the sampling of the liquid state. In this subject, a method that exploits frequency features of neurons is defined. The combination of different liquid state vectors is also discussed. Secondly, a method for training the liquid is developed. The method implements synaptic spike-timing dependent plasticity to shape the liquid. A new class-conditional approach is proposed, where different networks of neurons are trained exclusively on particular classes of input data. For the suggested liquid sampling methods and the liquid training method, comparative tests were conducted with both simulated and real data sets from different application areas. The tests reveal that the methods outperform the conventional liquid state machine approach. The methods are even more promising in that the results are obtained without optimization of many internal parameters for the different data sets. Finally, measures of the liquid state are investigated for predicting the performance of the liquid state machine.
|
523 |
Calibration-free Pedestrian Partial Pose Estimation Using a High-mounted KinectToony, Razieh 23 April 2018 (has links)
Les applications de l’analyse du comportement humain ont subit de rapides développements durant les dernières décades, tant au niveau des systèmes de divertissements que pour des applications professionnelles comme les interfaces humain-machine, les systèmes d’assistance de conduite automobile ou des systèmes de protection des piétons. Cette thèse traite du problème de reconnaissance de piétons ainsi qu’à l’estimation de leur orientation en 3D. Cette estimation est faite dans l’optique que la connaissance de cette orientation est bénéfique tant au niveau de l’analyse que de la prédiction du comportement des piétons. De ce fait, cette thèse propose à la fois une nouvelle méthode pour détecter les piétons et une manière d’estimer leur orientation, par l’intégration séquentielle d’un module de détection et un module d’estimation d’orientation. Pour effectuer cette détection de piéton, nous avons conçu un classificateur en cascade qui génère automatiquement une boîte autour des piétons détectés dans l’image. Suivant cela, des régions sont extraites d’un nuage de points 3D afin de classifier l’orientation du torse du piéton. Cette classification se base sur une image synthétique grossière par tramage (rasterization) qui simule une caméra virtuelle placée immédiatement au-dessus du piéton détecté. Une machine à vecteurs de support effectue la classification à partir de cette image de synthèse, pour l’une des 10 orientations discrètes utilisées lors de l’entrainement (incréments de 30 degrés). Afin de valider les performances de notre approche d’estimation d’orientation, nous avons construit une base de données de référence contenant 764 nuages de points. Ces données furent capturées à l’aide d’une caméra Kinect de Microsoft pour 30 volontaires différents, et la vérité-terrain sur l’orientation fut établie par l’entremise d’un système de capture de mouvement Vicon. Finalement, nous avons démontré les améliorations apportées par notre approche. En particulier, nous pouvons détecter des piétons avec une précision de 95.29% et estimer l’orientation du corps (dans un intervalle de 30 degrés) avec une précision de 88.88%. Nous espérons ainsi que nos résultats de recherche puissent servir de point de départ à d’autres recherches futures. / The application of human behavior analysis has undergone rapid development during the last decades from entertainment system to professional one, as Human Robot Interaction (HRI), Advanced Driver Assistance System (ADAS), Pedestrian Protection System (PPS), etc. Meanwhile, this thesis addresses the problem of recognizing pedestrians and estimating their body orientation in 3D based on the fact that estimating a person’s orientation is beneficial in determining their behavior. In this thesis, a new method is proposed for detecting and estimating the orientation, in which the result of a pedestrian detection module and a orientation estimation module are integrated sequentially. For the goal of pedestrian detection, a cascade classifier is designed to draw a bounding box around the detected pedestrian. Following this, extracted regions are given to a discrete orientation classifier to estimate pedestrian body’s orientation. This classification is based on a coarse, rasterized depth image simulating a top-view virtual camera, and uses a support vector machine classifier that was trained to distinguish 10 orientations (30 degrees increments). In order to test the performance of our approach, a new benchmark database contains 764 sets of point cloud for body-orientation classification was captured. For this benchmark, a Kinect recorded the point cloud of 30 participants and a marker-based motion capture system (Vicon) provided the ground truth on their orientation. Finally we demonstrated the improvements brought by our system, as it detected pedestrian with an accuracy of 95:29% and estimated the body orientation with an accuracy of 88:88%.We hope it can provide a new foundation for future researches.
|
524 |
Amélioration de l'inspection thermique des bâtiments grâce à l'analyse de textureHesam, Setayesh 04 April 2024 (has links)
Titre de l'écran-titre (visionné le 25 mars 2024) / Ce mémoire présente une nouvelle approche automatisée pour détecter les fuites thermiques lors des inspections de bâtiments. Nous exposons un cadre intégrant de manière cohérente l'enregistrement automatique d'images, la segmentation d'images et la fusion des résultats segmentés issus à la fois d'images visibles et thermiques. Notre recherche compare rigoureusement les techniques d'enregistrement manuel et automatique d'images, démontrant que la méthode automatique, exploitant l'algorithme de la Transformée de Caractéristiques Invariantes à l'Échelle (SIFT), surpasse l'approche manuelle en termes d'efficacité, de précision et de reproductibilité. La segmentation des images utilise une approche supervisée pour les images visibles, en adoptant spécifiquement une architecture UNET++ et Resnet 152, tandis que les images thermiques sont segmentées en utilisant la méthode non supervisée de Kanezaki. Les résultats segmentés de ces divers types d'images sont ultérieurement fusionnés, fournissant une représentation exhaustive et précise des fuites thermiques à travers différentes parties du bâtiment. La qualité de la fusion dépend de la précision des étapes antérieures, soulignant l'importance de chaque étape dans ce système intégré. Ce travail démontre l'efficacité de notre nouvelle approche dans le domaine de l'inspection automatisée des bâtiments et ouvre la voie à de futures explorations et innovations dans ce domaine. Le mémoire est structuré en quatre chapitres, débutant par une revue exhaustive de la littérature, suivie de la méthodologie proposée, des résultats et des discussions, et se conclut par les orientations pour les travaux futurs.
|
525 |
Apport des Graphes dans la Reconnaissance Non-Contrainte de Caractères Manuscrits AnciensArrivault, Denis 17 March 2006 (has links) (PDF)
L'objectif des travaux réalisés au cours de cette thèse est d'adresser la problématique de la reconnaissance générique de caractères manuscrits par les méthodes structurelles à base de graphes. Les écrits traités sont non-contraints et hétérogènes dans le temps. Les méthodes classiques, dites statistiques, sont efficaces mais ne peuvent s'appliquer qu'à des écritures à vocabulaire restreint dans le cadre d'un système avec une phase d'apprentissage. Nous proposons deux systèmes de reconnaissance à base de graphes d'attributs. Le premier utilise des attributs numériques et une modélisation de la base d'apprentissage avec des graphes aléatoires. L'intégration des informations de structure change la notion de complexité et permet une coopération intéressante avec les approches statistiques. Le second système utilise des attributs hiérarchiques flous. Il permet une reconnaissance sans apprentissage basée sur des modèles qui tend vers la reconnaissance générique recherchée.
|
526 |
La capacité d'action collective des populations marginalisées dans le cadre des stratégies de lutte pour la reconnaissance : les cas de Cité de l'Éternel à Port-au-Prince (Haïti) et de la Sierra Santa Catarina (Mexico)Louis, Ilionor 03 1900 (has links)
Cette thèse analyse la capacité d’action collective des populations marginalisées situées respectivement dans un bidonville appelé Cité de l’Éternel à Port-au-Prince (Haïti) et dans des campements à la Sierra Santa Catarina, Iztapalapa (Mexico). À Port-au-Prince, avant la chute de la dictature des Duvalier, des «tontons macoutes» envahirent un terrain situé en bordure du quai de la capitale, près du boulevard Harry Truman. Après s’y être installés, ils ont procédé à la vente de parcelles destinées à la construction de logement à des particuliers. Mais après la chute de Jean-Claude Duvalier, en 1986, des gens de la populace en ont profité pour envahir ce qui restait de ces terrains marécageux. Après l’occupation, ils se sont organisés pour défendre collectivement leur propriété avant d’entreprendre, par la suite, des démarches pour y amener des services et obtenir la régularisation de leur situation sur ces territoires.
À la Sierra Santa Catarina, des populations conduites par des militants d’un Front populaire ont occupé des terrains situés au pied d’une montagne de sable afin d’accéder à la propriété et de construire leur demeure. À l’instar des populations de la Cité, ces gens se sont organisés pour aménager des espaces, y ériger des logements provisoires, monter la garde afin de ne pas être déguerpis par les forces de police. Tout en travaillant pour accéder à leur manière aux services de base, elles entreprennent des actions auprès des institutions publiques afin d’obtenir la régularisation de leur situation.
Par rapport à la capacité d’action collective de ces populations, les théories sociologiques sont divisées. D’un côté, certains auteurs soutiennent la thèse de l’incapacité de ces populations d’avoir des intérêts collectifs et d’agir en conséquence. Selon eux, sans une médiation sociale ou à défaut d’une agrégation et d’une représentation politiques, ces populations sont incapables d’avoir une subjectivité collective. De l’autre, des auteurs pensent qu’à partir des liens d’amitié de parenté et de voisinage, indépendamment de leurs situations socioéconomiques, ces populations peuvent créer des stratégies de subsistance et de luttes qui leur permettent de trouver des solutions à des problèmes tant individuels que collectifs.
S’agissant des populations qui envahissent des terrains en milieu urbain pour habiter, les actions de ces gens là sont définis déjà comme une forme d’action collective inscrite dans des rapports sociaux qui se caractérisent par la différenciation entre les groupes sociaux dans l’accès à la propriété. Ainsi, leurs revendications de reconnaissance et de régularisation auprès des instances étatiques sont déterminées par leur mode d’accès aux biens et aux richesses inégalement réparties en Haïti et au Mexique.
Les populations des deux territoires ont entrepris diverses démarches auprès de certaines institutions et réalisé des actions collectives soit pour amener des services de base tels que l’eau et l’électricité, soit pour obtenir de l’État la reconnaissance des territoires envahis, c’est-à-dire leur jonction à la cartographie de la ville. Cette reconnaissance implique non seulement l’installation des services réguliers au bénéfice de la population mais aussi l’octroi à chaque propriétaire de son titre de propriété. Si dans le cas de la Sierra Santa Catarina les démarches sont entreprises auprès des institutions publiques, dans celui de Port-au-Prince, ce sont les ONG ou les agence de coopération qui sont touchées et qui fournissent certains services à la population conformément à la priorité de leurs bailleurs de fonds. Les interventions auprès de l’État se font plutôt dans le but d’obtenir une autorisation de fonctionnement d’une association locale.
Il ressort des approches théoriques et des actions collectives réalisées par ces populations qu’on ne peut pas dire qu’elles sont incapables d’avoir une subjectivité collective et des intérêts communs sans une agrégation et une représentation politique. À partir de différents liens entre les individus, des associations sont créées lesquelles permettent d’établir une médiation entre les populations et d’autres organismes. Dans le cas des campements, les actions collectives sont certainement mises à contribution par quelques leaders. Cela participe de toute une tradition politique au Mexique. Néanmoins, dans certains campements, des populations parviennent à tenir tête jusqu’à révoquer certains leaders. Au-delà de leur situation socioéconomique, de l’emprise de certains dirigeants de campement, de l’indifférence de l’État (dans le cas de Port-au-Prince, notamment), ces populations font preuve d’une étonnante capacité critique de leur situation tant dans leurs relations avec les dirigeants des associations et des campements que par rapport à l’État. Ceci pourrait soulever des doutes quant à la possibilité qu’elles soient réellement ou inconsciemment manipulées. Cela suggère la possibilité d’actions collectives autonomes de portée critique là où les circonstances le permettent
Mots clés : Marginalisation, action collective, reconnaissance, Débrouille, capacité critique, bidonvilles, instrumentalisation politique, reconnaissance fragmentée. / This thesis analyzes the collective action of marginalized populations located respectively in Cité de l’Éternel» in Port-au-Prince (Haiti) and in « Sierra Santa Catarina », Iztapalapa (Mexico City). In Port-au-Prince, before the fall of the dictatorship of Duvalier, the “tontons macoutes” invaded a terrain located on the edge of the quay of the capital, close to the boulevard Harry Truman. After being installed there, they proceeded to sell of lots intended for the construction of private housing. But after the fall of Jean-Claude Duvalier, in 1986, a part of the population took the opportunity to invade what remained of these marshes. After the occupation, they organized collectively to defend their property before undertaking actions to bring services and to obtain the regularization of their situation.
In the Sierra Santa Catarina (Mexico) populations led by militants of the Popular Front occupied ground at the foot of a sandy mountain in order to build their homes. Like the populations of «Cité de l’Éternel », these people organized to keep watch in order not to be evicted by the police. While working to gain access to the basic services, they undertake actions at the public institutions in order to obtain the regularization of their situation.
In relation to the capacity for collective action of these populations, sociological theories are divided. On one side, certain authors support the thesis of the incapacity of these populations to have collective interests and to act consequently. According to them, without social mediation and without aggregation and a political representation, these populations are unable to acquire a collective subjectivity. Other authors think that at the basis of ties of friendship, family and vicinity, independently of their socio-economic situations, these populations can create strategies of subsistence and fight to find solutions that are individuals as well as collective.
Concerning populations that invade territory to establish their homes, their actions are already a form of collective action. They are also involved in collective action either to bring basic services such as water and electricity, or to obtain public recognition of the invaded territories. This recognition implies not only the installation of regular services for the benefit of the population but also the granting to each owner of title. In the case of the Sierra Santa Catarina the actions undertaken with respect to public institutions, while in the case of Port-au-Prince, NGO’s or cooperation agencies are directly implicated.
We cannot conclude that populations are unable to have a collective subjectivity and shared interests without an aggregation and a political representation. Starting from various bonds between the individuals, associations are created which make it possible to establish mediation between the populations and other organizations. In the case of the Sierra Santa Catarina, collective action is certainly instrumentalised by leaders. That is part of a political tradition in Mexico. Nevertheless, some settlements people manage to resist their leaders. A part from the socio-economic situation, the influence of certain leaders in Mexico and the indifference of the State (in the case of Port-au-Prince, in particular), these populations show an astonishing critical capacity with respect to their situation as well as their relations with the leaders of associations and the settlements. This suggests possibility for autonomous critical collective action where circumstances allow
Keys words: marginalization, collective action, recognition, smartness, critical capacity, slums fragmented recognition, denial recognition
|
527 |
Spécialisation hémisphérique de la reconnaissance de sa propre voixRosa, Christine January 2008 (has links)
Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
528 |
Reconnaissance des actions humaines à partir d'une séquence vidéoTouati, Redha 12 1900 (has links)
The work done in this master's thesis, presents a new system for the
recognition of human actions from a video sequence. The system uses,
as input, a video sequence taken by a static camera. A binary
segmentation method of the the video sequence is first achieved, by a
learning algorithm, in order to detect and extract the different people
from the background. To recognize an action, the system then exploits
a set of prototypes generated from an MDS-based dimensionality
reduction technique, from two different points of view in the video
sequence. This dimensionality reduction technique, according to two
different viewpoints, allows us to model each human action of the
training base with a set of prototypes (supposed to be similar for
each class) represented in a low dimensional non-linear space. The
prototypes, extracted according to the two viewpoints, are fed to a
$K$-NN classifier which allows us to identify the human action that
takes place in the video sequence. The experiments of our model
conducted on the Weizmann dataset of human actions provide interesting
results compared to the other state-of-the art (and often more
complicated) methods. These experiments show first the
sensitivity of our model for each viewpoint and its effectiveness to
recognize the different actions, with a variable but satisfactory
recognition rate and also the results obtained by the fusion of these
two points of view, which allows us to achieve a high performance
recognition rate. / Le travail mené dans le cadre de ce projet de maîtrise vise à
présenter un nouveau système de reconnaissance d’actions humaines à
partir d'une séquence d'images vidéo. Le système utilise en entrée une
séquence vidéo prise par une caméra statique. Une méthode de
segmentation binaire est d'abord effectuée, grâce à un algorithme
d’apprentissage, afin de détecter les différentes personnes de
l'arrière-plan. Afin de reconnaitre une action, le système exploite
ensuite un ensemble de prototypes générés, par une technique de
réduction de dimensionnalité MDS, à partir de deux points de vue
différents dans la séquence d'images. Cette étape de réduction de
dimensionnalité, selon deux points de vue différents, permet de
modéliser chaque action de la base d'apprentissage par un ensemble de
prototypes (censé être relativement similaire pour chaque classe)
représentés dans un espace de faible dimension non linéaire. Les
prototypes extraits selon les deux points de vue sont amenés à un
classifieur K-ppv qui permet de reconnaitre l'action qui se déroule
dans la séquence vidéo. Les expérimentations de ce système sur la
base d’actions humaines de Wiezmann procurent des résultats assez
intéressants comparés à d’autres méthodes plus complexes. Ces
expériences montrent d'une part, la sensibilité du système pour chaque
point de vue et son efficacité à reconnaitre les différentes actions,
avec un taux de reconnaissance variable mais satisfaisant, ainsi que
les résultats obtenus par la fusion de ces deux points de vue, qui
permet l'obtention de taux de reconnaissance très performant.
|
529 |
Simulations of diversity techniques for urban UAV data linksPoh, Seng Cheong Telly 12 1900 (has links)
Approved for public release, distribution is unlimited / In urbanized terrain, radiowave propagation is subjected to fading on large-scales and smallscales that would impede on the quality and reliability of data link transmission. This would have implications in many military applications. One example is the performance of unmanned aerial vehicle (UAV) data and communications links in complex urban environments. The purpose of this research is to study the effectiveness of diversity techniques on the performance of urban UAV data and communications links. The techniques investigated were spatial, polarization, and angle diversities. The ray tracing software, Urbana Wireless Toolset, was used in the modeling and simulation process. The various combinations of diversity techniques were simulated using a realistic urban city model. For the few transmit-receive geometries examined, it was found that angle diversity with a directive antenna provided the greatest increase in signal strength relative to the no diversity case. / Civilian, Singapore DOD
|
530 |
Single image super-resolution based on neural networks for text and face recognition / Super-résolution d'image unique basée sur des réseaux de neurones pour la reconnaissance de texte et de visagePeyrard, Clément 29 September 2017 (has links)
Cette thèse porte sur les méthodes de super-résolution (SR) pour l’amélioration des performances des systèmes de reconnaissance automatique (OCR, reconnaissance faciale). Les méthodes de Super-Résolution (SR) permettent de générer des images haute résolution (HR) à partir d’images basse résolution (BR). Contrairement à un rééchantillonage par interpolation, elles restituent les hautes fréquences spatiales et compensent les artéfacts (flou, crénelures). Parmi elles, les méthodes d’apprentissage automatique telles que les réseaux de neurones artificiels permettent d’apprendre et de modéliser la relation entre les images BR et HR à partir d’exemples. Ce travail démontre l’intérêt des méthodes de SR à base de réseaux de neurones pour les systèmes de reconnaissance automatique. Les réseaux de neurones à convolutions sont particulièrement adaptés puisqu’ils peuvent être entraînés à extraire des caractéristiques non-linéaires bidimensionnelles pertinentes tout en apprenant la correspondance entre les espaces BR et HR. Sur des images de type documents, la méthode proposée permet d’améliorer la précision en reconnaissance de caractère de +7.85 points par rapport à une simple interpolation. La création d’une base d’images annotée et l’organisation d’une compétition internationale (ICDAR2015) ont souligné l’intérêt et la pertinence de telles approches. Pour les images de visages, les caractéristiques faciales sont cruciales pour la reconnaissance automatique. Une méthode en deux étapes est proposée dans laquelle la qualité de l’image est d’abord globalement améliorée, pour ensuite se focaliser sur les caractéristiques essentielles grâce à des modèles spécifiques. Les performances d’un système de vérification faciale se trouvent améliorées de +6.91 à +8.15 points. Enfin, pour le traitement d’images BR en conditions réelles, l’utilisation de réseaux de neurones profonds permet d’absorber la variabilité des noyaux de flous caractérisant l’image BR, et produire des images HR ayant des statistiques naturelles sans connaissance du modèle d’observation exact. / This thesis is focussed on super-resolution (SR) methods for improving automatic recognition system (Optical Character Recognition, face recognition) in realistic contexts. SR methods allow to generate high resolution images from low resolution ones. Unlike upsampling methods such as interpolation, they restore spatial high frequencies and compensate artefacts such as blur or jaggy edges. In particular, example-based approaches learn and model the relationship between low and high resolution spaces via pairs of low and high resolution images. Artificial Neural Networks are among the most efficient systems to address this problem. This work demonstrate the interest of SR methods based on neural networks for improved automatic recognition systems. By adapting the data, it is possible to train such Machine Learning algorithms to produce high-resolution images. Convolutional Neural Networks are especially efficient as they are trained to simultaneously extract relevant non-linear features while learning the mapping between low and high resolution spaces. On document text images, the proposed method improves OCR accuracy by +7.85 points compared with simple interpolation. The creation of an annotated image dataset and the organisation of an international competition (ICDAR2015) highlighted the interest and the relevance of such approaches. Moreover, if a priori knowledge is available, it can be used by a suitable network architecture. For facial images, face features are critical for automatic recognition. A two step method is proposed in which image resolution is first improved, followed by specialised models that focus on the essential features. An off-the-shelf face verification system has its performance improved from +6.91 up to +8.15 points. Finally, to address the variability of real-world low-resolution images, deep neural networks allow to absorb the diversity of the blurring kernels that characterise the low-resolution images. With a single model, high-resolution images are produced with natural image statistics, without any knowledge of the actual observation model of the low-resolution image.
|
Page generated in 0.0302 seconds