Spelling suggestions: "subject:"anda reconnaissance"" "subject:"anda meconnaissance""
231 |
Deep learning for object detection in robotic grasping contextsMercier, Jean-Philippe 02 February 2024 (has links)
Dans la dernière décennie, les approches basées sur les réseaux de neurones convolutionnels sont devenus les standards pour la plupart des tâches en vision numérique. Alors qu'une grande partie des méthodes classiques de vision étaient basées sur des règles et algorithmes, les réseaux de neurones sont optimisés directement à partir de données d'entraînement qui sont étiquetées pour la tâche voulue. En pratique, il peut être difficile d'obtenir une quantité su sante de données d'entraînement ou d'interpréter les prédictions faites par les réseaux. Également, le processus d'entraînement doit être recommencé pour chaque nouvelle tâche ou ensemble d'objets. Au final, bien que très performantes, les solutions basées sur des réseaux de neurones peuvent être difficiles à mettre en place. Dans cette thèse, nous proposons des stratégies visant à contourner ou solutionner en partie ces limitations en contexte de détection d'instances d'objets. Premièrement, nous proposons d'utiliser une approche en cascade consistant à utiliser un réseau de neurone comme pré-filtrage d'une méthode standard de "template matching". Cette façon de faire nous permet d'améliorer les performances de la méthode de "template matching" tout en gardant son interprétabilité. Deuxièmement, nous proposons une autre approche en cascade. Dans ce cas, nous proposons d'utiliser un réseau faiblement supervisé pour générer des images de probabilité afin d'inférer la position de chaque objet. Cela permet de simplifier le processus d'entraînement et diminuer le nombre d'images d'entraînement nécessaires pour obtenir de bonnes performances. Finalement, nous proposons une architecture de réseau de neurones ainsi qu'une procédure d'entraînement permettant de généraliser un détecteur d'objets à des objets qui ne sont pas vus par le réseau lors de l'entraînement. Notre approche supprime donc la nécessité de réentraîner le réseau de neurones pour chaque nouvel objet. / In the last decade, deep convolutional neural networks became a standard for computer vision applications. As opposed to classical methods which are based on rules and hand-designed features, neural networks are optimized and learned directly from a set of labeled training data specific for a given task. In practice, both obtaining sufficient labeled training data and interpreting network outputs can be problematic. Additionnally, a neural network has to be retrained for new tasks or new sets of objects. Overall, while they perform really well, deployment of deep neural network approaches can be challenging. In this thesis, we propose strategies aiming at solving or getting around these limitations for object detection. First, we propose a cascade approach in which a neural network is used as a prefilter to a template matching approach, allowing an increased performance while keeping the interpretability of the matching method. Secondly, we propose another cascade approach in which a weakly-supervised network generates object-specific heatmaps that can be used to infer their position in an image. This approach simplifies the training process and decreases the number of required training images to get state-of-the-art performances. Finally, we propose a neural network architecture and a training procedure allowing detection of objects that were not seen during training, thus removing the need to retrain networks for new objects.
|
232 |
Deep learning based semi-supervised video anomaly detectionBaradaran, Mohammad 25 January 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La détection d'anomalies vidéo (DAV) est une tâche cruciale de vision par ordinateur pour diverses applications du monde réel telles que la vidéosurveillance, le contrôle qualité, etc. Avec la rareté des données d'anomalies étiquetées et la nature ouverte des définitions d'anomalies, il y a eu une croissance d'intérêt des chercheurs pour l'exploration de méthodes semi-supervisées de détection d'anomalies vidéo. Ces méthodes utilisent une tâche proxy pour ajuster un modèle sur des échantillons normaux, en tenant compte de leurs caractéristiques d'apparence et de mouvement. Les anomalies sont par conséquent détectées en mesurant l'écart des échantillons de test par rapport au modèle normal formé. Cette thèse est dédiée à l'avancement de ce domaine, englobant quatre composantes distinctes. Dans la partie initiale, nous menons une étude approfondie sur les méthodes DAV semi-supervisées de pointe existantes afin d'examiner leurs points forts et leurs défis. Pour compléter notre examen, nous effectuons également des expériences pour mieux comprendre les capacités et les limites des approches existantes. Les résultats de cette étude servent de source de motivation et mettent en lumière l'orientation de notre recherche. Cette étude est publiée sous la forme d'un article de synthèse (MTAP2023). Lors de l'analyse des méthodes existantes, il devient évident qu'elles ne tiennent pas suffisamment compte de la classe des objets lorsqu'il s'agit de détecter des anomalies d'apparence. Inspirés par ce besoin, nous proposons, dans la deuxième partie, une méthode DAV basée sur l'apprentissage en profondeur et sensible aux classes d'objets. C'est une méthode à deux flux qui modélise et détecte les anomalies de mouvement et d'apparence dans différentes branches. Dans la branche apparence, nous introduisons une approche basée sur la distillation des connaissances qui utilise une méthode de segmentation sémantique pré-entraînée (Mask-RCNN) pour former un réseau étudiant dédié à la segmentation sémantique avec des objets normaux. Par conséquent, en mesurant l'écart entre les sorties des réseaux enseignant et étudiant, nous dérivons un score d'anomalie pour la branche d'apparence. La branche de mouvement, d'autre part, traduit une image brute en sa carte de magnitude de flux optique correspondante, pour modéliser les mouvements normaux et détecter les anomalies associées. L'approche de modélisation de mouvement proposée atténue le risque de généralisation aux anomalies, améliorant ainsi la fiabilité et la précision du processus de détection. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CRV 2022). Dans la troisième partie, nous proposons une méthode de détection d'anomalies vidéo basée sur l'apprentissage multi-tâches visant à tirer parti des avantages de la combinaison de plusieurs tâches proxy complémentaires pour améliorer les performances de détection d'anomalies. Différentes tâches complémentaires sont proposées en tenant compte de leurs capacités et insuffisances à détecter différents cas d'anomalies. De plus, nous proposons une nouvelle tâche proxy de prédiction de carte de segmentation sémantique future pour la détection d'anomalies vidéo qui bénéficie des capacités de prédiction de trames futures et de tâches de segmentation sémantique pour la détection d'anomalies de mouvement et d'apparence. De plus, pour améliorer encore la détection des anomalies de mouvement, nous intégrons la tâche de prédiction de l'amplitude du flux optique à partir d'une trame brute dans une autre branche. Finalement, pour relever les défis rencontrés dans notre méthode précédente, nous proposons plusieurs mécanismes d'attention pour engager des informations contextuelles dans la modélisation de mouvement, conduisant à une amélioration des performances. Les résultats de cette étude ont été publiés sous forme d'article de conférence (CVPRW 2023). Dans la dernière partie, nous relevons un autre défi dans la modélisation du mouvement. Tant dans nos méthodes proposées que dans d'autres méthodes existantes, les modèles de mouvement à long terme n'ont pas été efficacement pris en compte pour la détection d'anomalies vidéo. Pour remédier à cette limitation, nous proposons une nouvelle tâche proxy pour la détection d'anomalies vidéo : la prédiction vidéo future à partir d'une seule image. Cette méthode prend en compte les modèles de mouvement à long terme en plus des modèles à court terme pour la détection d'anomalies vidéo et relève le défi de la généralisation aux mouvements anormaux. Cette étude donne des résultats significatifs. Les résultats démontrent que la formulation de DAV comme une prédiction d'images plus éloignées dans le futur (au lieu de l'image suivante immédiate) entraîne une plus grande disparité entre les normales et les anomalies et donc une amélioration des performances. Les résultats de cette étude sont acceptés sous forme d'article de conférence (ISVC 2023). Nos résultats qualitatifs et quantitatifs ainsi que des études d'ablation sur des ensembles de données de référence tels que les ensembles de données ShanghaiTech, UCSD-Ped1 et UCSD-Ped2 démontrent le succès de chaque contribution de notre thèse dans la réalisation de leurs objectifs respectifs. / Video anomaly detection (VAD) is a crucial computer vision task for various real-world applications such as video surveillance, quality control, etc. With the scarcity of labeled anomaly data and the open-ended nature of anomaly definitions, there has been a growing interest among researchers in exploring semi-supervised methods for video anomaly detection. These methods employ a proxy-task to fit a model on normal samples, taking into account their appearance and motion features. Anomalies are consequently detected by measuring the deviation of test samples from the trained normal model. This thesis is dedicated to advancing this field, encompassing four distinct components. In the initial part, we conduct an in-depth study on existing state-of-the-art semi-supervised VAD methods to examine their strong points and challenges. To supplement our review, we also conduct experiments to gain deeper insights into the capabilities and limitations of existing approaches. The outcomes of this study serve as a source of motivation and highlights the direction of our research. This study is published as a review paper (MTAP2023). Upon analyzing the existing methods, it becomes apparent that they do not adequately consider the object class when it comes to detecting appearance anomalies. Inspired by this need, we propose, in the second part, a two-stream object class-aware deep learning based VAD method that models and detects motion and appearance anomalies in different network branches. In the appearance branch, we introduce a knowledge-distillation-based approach that utilizes a pre-trained semantic segmentation method (Mask-RCNN) to train a student network dedicated to semantic segmentation with normal objects. Consequently, by measuring the disparity between the outputs of the teacher and student networks, we derive an anomaly score for the appearance branch. Motion branch, on the other hand, translates a raw frame to its corresponding optical flow magnitude map, to model normal motions and detect related anomalies. The proposed motion modeling approach, mitigates the risk of generalization to anomalies, thus enhancing the reliability and precision of the detection process. Results of this study is published as a conference paper (CRV 2022). In the third part, we put forth a multi-task learning based video anomaly detection method aimed at leveraging the benefits of combining multiple complementary proxy-tasks to enhance anomaly detection performance. Different complementary tasks are suggested taking into ac count their abilities and shortcomings in detecting different anomaly cases. Moreover, we propose a novel proxy-task of future semantic segmentation map prediction for video anomaly detection which benefits from the abilities of future frame prediction and semantic segmentation tasks for motion and appearance anomaly detection. Additionally, to further enhance the detection of motion anomalies, we incorporate the task of optical flow magnitude prediction from a raw frame in another branch. Finally, to address the challenges encountered in our previous method, we propose multiple attention mechanisms to engage context information in motion modeling, leading to performance improvement. Results of this study is published as a conference paper (CVPRW 2023). As the final part, we tackle another challenge in motion modeling. Both in our proposed methods and other existing methods, long-term motion patterns have not been effectively considered for video anomaly detection. To address this limitation, we put forward a novel proxy-task for video anomaly detection: future video prediction from a single frame. This method considers long-term motion patterns in addition to short-term ones for video anomaly detection and addresses the challenge of generalization to abnormal motion. This study yields significant findings. The results demonstrate that formulating VAD as a prediction of farther frames in the future (instead of the immediate next frame) results in a larger disparity between normals and anomalies and hence in improved performance. Results of this study is accepted as a conference paper (ISVC 2023). Our qualitative and quantitative results along with ablation studies on benchmark datasets such as ShanghaiTech, UCSD-Ped1 and UCSD-Ped2 datasets demonstrate the success of each contribution of our thesis in achieving their respective goals.
|
233 |
Depth texture synthesis for high resolution seamless reconstruction of large scenesLabrie-Larrivée, Félix 26 June 2024 (has links)
La numérisation 3D de scène à grande échelle est un problème complexe sans solution à la fois précise, rapide et abordable. Les scènes à grande échelle comme les façades d'édices comportent cependant des éléments répétitifs (fenêtres, briques, panneaux de bois) qui peuvent être utilisés pour améliorer le processus de numérisation. Notre approche, Depth Texture Synthesis, utilise un scan haute résolution d'un de ces éléments, effectué avec un scanneur RGBD, et transmet cette résolution élevée aux endroits où l'élément est répété ailleurs dans la scène. Cette transmission s'effectue suivant l'information fournie par une reconstruction SfM. Pour effectuer une procédure de Depth Texture Synthesis, la façade de l'édice est simplifiée en une géométrie planaire qui nous sert de canevas. Sur ce canevas nous projetons l'information RGB ainsi que l'information de profondeur du modèle échantillon haute résolution et du modèle SfM basse résolution. Ensuite, un algorithme puissant de synthèse de texture 2D est employé pour transmettre l'information de profondeur haute résolution suivant les patrons de profondeur basse résolution et d'information RGB. La nouvelle carte de profondeur haute résolution peut alors être reconvertie en modèle 3D pour un résultat beaucoup plus réaliste et visuellement détaillé que la reconstruction SfM. Il est aussi intéressant de noter que notre approche est beaucoup moins fastidieuse qu'un scan complet de la scène utilisant des scanneurs RGBD. Les outils utilisés (Kinect v2 et appareil photo) sont aussi très abordables en comparaison avec le Lidar. / Large scenes such as building facades are challenging environments for 3D reconstruction. These scenes often include repeating elements (windows, bricks, wood paneling) that can be exploited for the task of 3D reconstruction. Our approach, Depth Texture Synthesis, is based on that idea and aims to improve the quality of 3D model representation of large scenes. By scanning a sample of a repeating structure using a RGBD sensor, Depth Texture Synthesis can propagate the high resolution of that sample to similar parts of the scene. It does so following RGB and low resolution depth information of a SfM reconstruction. To handle this information the building facade is simplified into a planar primitive and serves as our canvas. The high resolution depth of the Kinect sample and low resolution depth of the SfM model as well as the RGB information are projected onto the canvas. Then, powerful image based texture synthesis algorithms are used to propagate the high resolution depth following cues in RGB and low resolution depth. The resulting synthesized high resolution depth is converted back into a 3D model that greatly improves on the SfM model with more detailed, more realistic looking geometry. Our approach is also much less labor intensive than RGBD sensors in large scenes and it is much more affordable than Lidar.
|
234 |
Distortion-aware transformer for depth estimation and object detectionShili, Ichrak 23 September 2024 (has links)
Les objectifs fisheye offrent un champ de vision plus large que les objectifs à sténopé, ce qui les rend largement utilisés dans diverses applications. Cependant, ces derniers créent des distorsions importantes dans les images, ce qui pose des défis pour les modèles de vision par ordinateur standards. Les approches actuelles conçues pour gérer la distorsion sont souvent spécifiques à un objectif et ont du mal à généraliser à différents objectifs sans ajustement. DarSwin [3], un encodeur transformer qui raisonne sur la distorsion (distortion-aware) en intégrant la courbe de projection de l'objectif, atteint des capacités de généralisation améliorées en classification. Ce mémoire étend DarSwin à l'estimation de profondeur monoculaire avec DarSwin-Unet, une nouvelle architecture encodeur-décodeur, inspirée de Swin-Unet [5], et qui s'adapte à la distorsion. L'évaluation sur le jeu de données synthétique fisheye Matterport3D démontre la robustesse de DarSwin-Unet face à toutes les distorsions par rapport aux autres approches. Le mémoire explore également l'extension de DarSwin à la détection d'objets en utilisant deux variantes de transformers de détection, DINO [71] et AdaMixer [16], sur le jeu de données Woodscape [70]. Contrairement aux modèles utilisant un backbone Swin [40], les modèles avec un backbone DarSwin ne dépendent pas de l'augmentation de données, confirmant ainsi la robustesse de DarSwin. / Fisheye lenses offer a wider field-of-view (FoV) than pinhole lenses, making them widely used in diverse applications. However, their significant distortions introduce challenges for standard computer vision models. Current approaches designed to handle distortion are often lens-specific and struggle to generalize across different lenses without fine-tuning. DarSwin [3], a distortion-aware encoder-only transformer that incorporates the lens projection curve, achieves enhanced generalization capabilities in classification. This thesis extends DarSwin to monocular depth estimation with DarSwin-Unet, a novel distortion-aware encoder-decoder architecture inspired by Swin-Unet [5]. Evaluation on the synthetic fisheye Matterport3D dataset demonstrates DarSwin-Unet's robustness across all distortions compared to other baselines. Further exploration involves extending DarSwin to object detection using two variants of detection transformers, DINO [71] and AdaMixer [16], on theWoodscape dataset [70]. Unlike models with a Swin [40] backbone, models with a DarSwin backbone show no overfitting in the absence of data augmentation, further highlighting DarSwin's robustness.
|
235 |
Perception de la joie et de la colère : distorsions temporelles selon l'origine culturelleMendoza Duran, Harold Esteban 27 January 2024 (has links)
Le but de la présente étude était d'identifier l'influence des émotions faciales et l'origine culturelle dans la perception de la durée des stimuli marquant des intervalles de 0,4 à 1,6 s. L'hypothèse posée était que la durée de présentation des visages exprimant de la colère ou de la joie serait plus souvent jugée comme longue que la durée de présentation d'une expression neutre. Une autre hypothèse stipulait que les participants venant des pays d'Europe de l'Ouest et d'Amérique du Nord, qui se caractérisent par un rythme de vie plus rapide et une plus grande importance accordée à la ponctualité, allaient surestimer le temps plus souvent que les participants d'Afrique centrale, du Nord et de l'Ouest et du Sud et l'Amérique centrale. Les stimuli présentés pour délimiter le temps étaient des visages féminins et masculins de trois groupes différents (Noirs, Blancs et Latino/A) exprimant de la joie, de la colère ou aucune émotion. Il y avait vingt participants dans chacun des quatre groupes venant de 1) l'Amérique du Nord, 2) l'Amérique latine, 3) l'Afrique centrale, du nord et de l'ouest, et 4) l'Europe occidentale. Les résultats révèlent que, dans l'ensemble, les participants d'Amérique latine estiment que la durée de présentation des visages est plus souvent longue que les participants de tous les autres groupes culturels de l'étude. De plus, les Latino-Américains ont répondu plus souvent « long » lorsqu'un visage masculin était présenté par rapport à un visage féminin. Finalement, les résultats indiquent également que les participants répondent « long » plus souvent lorsque la joie est exprimée par un visage masculin que par un visage féminin quel que soit le groupe culturel. / The aim of the present study was to investigate the impact of facial emotions and cultural differences on the perception of the duration of stimuli marking 0.4- to 1.6-s intervals. We posited the hypothesis that faces expressing anger and joy will be more often judged long than a neutral expression. Another hypothesis stipulated that the participants coming from the countries of West Europe and North America, who are characterized by a faster pace of life and a higher importance given to punctuality, would overestimate time more often than participants from Central, North and West Africa and South and Central America. The stimuli were female and male faces from three different groups (Black, White, and Latino/a people) expressing joy, anger, or no emotion. There were twenty participants in each of the four groups coming from 1) North America, 2) Latin America, 3) Central, North, and West Africa, and 4) Western Europe. The results reveal that, overall, participants from Latin America estimate that the presentation of faces is long more often than participants from all other cultural groups in the study. Moreover, Latin Americans responded more often long when a male face was presented compared to a female face. Finally, the results also indicate that participants respond "long" more often when joy is expressed by a male face than by a female face no matter the cultural group.
|
236 |
Reconnaissance moléculaire à l'interface air-eau : une avancée vers les polymères "ADN-mimétiques"Bisson, Mylène 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2010-2011 / La spécificité de la reconnaissance moléculaire démontrée par l'ADN est sans parallèle dans le domaine des polymères synthétiques. Notre projet propose une nouvelle méthode pour transcrire de l'information génétique d'un brin d'ADN dans un polymère synthétique. Grâce à la reconnaissance moléculaire entre les paires de bases complémentaires (A-T, G-C), nous visons l'assemblage de monomères dans l'ordre précis dicté par la séquence de l'ADN. La polymérisation subséquente des monomères figera cette séquence dans un nouveau polymère synthétique appelé ADN-mimétique. Deux stratégies pour la préparation de polymères ADN-mimétiques seront exposées. La première vise tout d'abord à déposer l'ADN de façon contrôlée sur un substrat solide. Cette approche implique la formation d'un complexe électrostatique entre l'ADN et un surfactant cationique à l'interface air-eau. L'interaction du surfactant avec l'ADN a été démontrée par la balance de Langmuir et la microscopie à l'angle de Brewster. De plus, la distribution des composants, l'orientation et la composition chimique des films transférés sur un support solide ont été déterminées par des techniques de microscopie, de spectroscopie infrarouge et d'analyse de surface. La seconde approche devant mener aussi à la formation d'un polymère d'ADN mimétique implique l'assemblage de monomères à l'interface air-eau sur un simple brin d'ADN dissous dans la phase aqueuse. Plusieurs monomères portant des bases azotées ont été synthétisés par nos collaborateurs (équipe d'Hanadi Sleiman, Université McGill). L'interaction entre ces molécules et l'ADN à l'interface air-eau a été étudiée avec une balance de Langmuir et par microscopie à l'angle de Brewster. La première génération de monomères étudiés ne forme malheureusement pas de film de Langmuir, et cela malgré la modification de plusieurs paramètres expérimentaux. Ces premiers résultats ont mené à la conception d'une seconde génération de molécules qui, dans ce cas, forment des monocouches stables à l'interface. Certaines indications obtenues par spectroscopie infrarouge laissent croire à une hybridation entre ces molécules et l'ADN. Enfin, une troisième génération de monomères formant des films de Langmuir a également été étudiée à l'interface air-eau et aussi sur des substrats solides. Nos travaux démontrent qu'il y a appariement de bases entre ces monomères et des acides nucléiques.
|
237 |
Intégration de connaissances linguistiques pour la reconnaissance de textes manuscrits en-ligneQuiniou, Solen 17 December 2007 (has links) (PDF)
L'objectif de ces travaux de thèse est de construire un système de reconnaissance de phrases, en se basant sur un système de reconnaissance de mots existant. Pour cela, deux axes de recherche sont abordés : la segmentation des phrases en mots ainsi que l'intégration de connaissances linguistiques pour prendre en compte le contexte des phrases. Nous avons étudié plusieurs types de modèles de langage statistiques, en comparant leurs impacts respectifs sur les performances du système de reconnaissance. Nous avons également recherché la meilleure stratégie pour les intégrer efficacement dans le système de reconnaissance global. Une des orginalités de cette étude est l'ajout d'une représentation des différentes hypothèses de phrases sous forme d'un réseau de confusion, afin de pouvoir détecter et corriger les erreurs de reconnaissance restantes. L'utilisation des technique présentées permet de réduire de façon importante le nombre d'erreurs de reconnaissance, parmi les mots des phrases.
|
238 |
Representations en Scattering pour la ReconaissanceBruna, Joan 06 February 2013 (has links) (PDF)
Ma thèse étudie le problème de la reconnaissance des objets et des textures. Dans ce cadre, il est nécessaire de construire des représentations de signaux avec des propriétés d'invariance et de stabilité qui ne sont pas satisfaites par des approches linéaires. Les opérateurs de Scattering itèrent des décompositions en ondelettes et rectifications avec des modules complexes. Ces opérateurs définissent une transformée non-linéaire avec des propriétés remarquables ; en particulier, elle est localement invariante par translation et Lipschitz continue par rapport à l'action des difféomorphismes. De plus, les opérateurs de Scattering définissent une représentation des processus stationnaires qui capture les moments d'ordre supérieur, et qui peut être estimée avec faible variance à partir d'un petit nombre de réalisations. Dans cette thèse, nous obtenons des nouvelles propriétés mathématiques de la représentation en scattering, et nous montrons leur efficacité pour la reconnaissance des objets et textures. Grâce à sa continuité Lipschitz par rapport à l'action des difféomorphismes, la transformée en scattering est capable de linéariser les petites déformations. Cette propriété peut être exploitée en pratique avec un classificateur génératif affine, qui nous permet d'obtenir l'état de l'art sur la reconnaissance des chiffres manuscrites. Nous étudions ensuite les représentations en Scattering des textures dans le cadre des images et du son. Nous montrons leur capacité à discriminer des phénomènes non-gaussiens avec des estimateurs à faible variance, ce qui nous permet d'obtenir de l'état de l'art pour la reconnaissance des textures. Finalement, nous nous intéressons aux propriétés du Scattering pour l'analyse multifractale. Nous introduisons une renormalisation des coéfficients en Scattering qui permet d'identifier de façon efficace plusieurs paramètres multifractales; en particulier, nous obtenons une nouvelle caractérisation de l'intermittence à partir des coefficients de Scattering ré-normalisés, qui peuvent s'estimer de façon consistante.
|
239 |
Modélisation des environnements dynamiques pour la localisationDecrouez, Marion 07 May 2013 (has links) (PDF)
Les travaux effectués dans cette thèse s'inscrivent dans les problématiques de modélisation d'environnement pour la localisation par vision monoculaire. Nous nous intéressons tout particulièrement à la modélisation des environnements intérieurs dynamiques. Les environnements intérieurs sont constitués d'une multitude d'objets susceptibles d'être déplacés. Ces déplacements modifient de façon notable la structure et l'apparence de l'environnement et perturbent les méthodes actuelles de localisation par vision. Nous présentons dans ces travaux une nouvelle approche pour la modélisation d'un environnement et son évolution au fil du temps. Dans cette approche, nous définissons la scène explicitement comme une structure statique et un ensemble d'objets dynamiques. L'objet est défini comme une entité rigide qu'un utilisateur peut prendre et déplacer et qui est repérable visuellement. Nous présentons tout d'abord comment détecter et apprendre automatiquement les objets d'un environnement dynamique. Alors que les méthodes actuelles de localisation filtrent les incohérences dues aux modifications de la scène, nous souhaitons analyser ces modifications pour extraire des informations supplémentaires. Sans aucune connaissance a priori, un objet est défini comme une structure rigide ayant un mouvement cohérent par rapport à la structure statique de la scène. En associant deux méthodes de localisation par vision reposant sur des paradigmes différents, nous comparons les multiples passages d'une caméra dans un même environnement. La comparaison permet de détecter des objets ayant bougé entre deux passages. Nous pouvons alors, pour chaque objet détecté, apprendre un modèle géométrique et un modèle d'apparence et retenir les positions occupées par l'objet dans les différentes explorations. D'autre part, à chaque nouveau passage, la connaissance de l'environnement est enrichie en mettant à jour les cartes métrique et topologique de la structure statique de la scène. La découverte d'objet par le mouvement repose en grande partie sur un nouvel algorithme de détection de multiples structures entre deux vues que nous proposons dans ces travaux. Etant donné un ensemble de correspondances entre deux vues similaires, l'algorithme, reposant sur le RANSAC, segmente les structures correspondant aux différentes paramétrisations d'un modèle mathématique. La méthode est appliquée à la détection de multiples homographies pour détecter les plans de la scène et à la détection de multiples matrices fondamentales pour détecter les objets rigides en mouvement. La modélisation de l'environnement que nous proposons est utilisée dans une nouvelle formulation de reconnaissance de lieu prenant en compte la connaissance d'objets dynamiques susceptibles d'être présents dans l'environnement. Le modèle du lieu est constitué de l'apparence de la structure statique observée dans ce lieu. Une base de données d'objets est apprise à partir des précédentes observations de l'environnement avec la méthode de découverte par le mouvement. La méthode proposée permet à la fois de détecter les objets mobiles présents dans le lieu et de rejeter les erreurs de détection dues à la présence de ces objets. L'ensemble des approches proposées sont évaluées sur des données synthétiques et réelles. Des résultats qualitatifs et quantitatifs sont présentés tout au long du mémoire.
|
240 |
Combining neural-based approaches and linguistic knowledge for text recognition in multimedia documents / Combinaison d'approches neuronales et de connaissances linguistiques pour la reconnaissance de texte dans les documents multimédiasElagouni, Khaoula 28 May 2013 (has links)
Les travaux de cette thèse portent sur la reconnaissance des indices textuels dans les images et les vidéos. Dans ce cadre, nous avons conçu des prototypes d'OCR (optical character recognition) capables de reconnaître tant des textes incrustés que des textes de scène acquis n'importe où au sein d'images ou de vidéos. Nous nous sommes intéressée à la définition d'approches robustes à la variabilité des textes et aux conditions d'acquisition. Plus précisément, nous avons proposé deux types de méthodes dédiées à la reconnaissance de texte : - une approche fondée sur une segmentation en caractères qui recherche des séparations non linéaires entre les caractères adaptées à la morphologie de ces derniers ; - deux approches se passant de la segmentation en intégrant un processus de scanning multi-échelles ; la première utilise un modèle de graphe pour reconnaître les textes tandis que la seconde intègre un modèle connexionniste récurrent spécifiquement développé pour gérer les contraintes spatiales entre les caractères.Outre les originalités de chacune des approches, deux contributions supplémentaires de ce travail résident dans la définition d'une reconnaissance de caractères fondée sur un modèle de classification neuronale et l'intégration de certaines connaissances linguistiques permettant de tirer profit du contexte lexical. Les différentes méthodes conçues ont été évaluées sur deux bases de documents : une base de textes incrustés dans des vidéos et une base publique de textes de scène. Les expérimentations ont permis de montrer la robustesse des approches et de comparer leurs performances à celles de l'état de l'art, mettant en évidence leurs avantages et leurs limites. / This thesis focuses on the recognition of textual clues in images and videos. In this context, OCR (optical character recognition) systems, able to recognize caption texts as well as natural scene texts captured anywhere in the environment have been designed. Novel approaches, robust to text variability (differentfonts, colors, sizes, etc.) and acquisition conditions (complex background, non uniform lighting, low resolution, etc.) have been proposed. In particular, two kinds of methods dedicated to text recognition are provided:- A segmentation-based approach that computes nonlinear separations between characters well adapted to the localmorphology of images;- Two segmentation-free approaches that integrate a multi-scale scanning scheme. The first one relies on a graph model, while the second one uses a particular connectionist recurrent model able to handle spatial constraints between characters.In addition to the originalities of each approach, two extra contributions of this work lie in the design of a character recognition method based on a neural classification model and the incorporation of some linguistic knowledge that enables to take into account the lexical context.The proposed OCR systems were tested and evaluated on two datasets: a caption texts video dataset and a natural scene texts dataset (namely the public database ICDAR 2003). Experiments have demonstrated the efficiency of our approaches and have permitted to compare their performances to those of state-of-the-art methods, highlighting their advantages and limits.
|
Page generated in 0.0803 seconds