Spelling suggestions: "subject:"reconnaissance"" "subject:"meconnaissance""
221 |
Reconnaissance moléculaire à l'interface air-eau : une avancée vers les polymères "ADN-mimétiques"Bisson, Mylène 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2010-2011 / La spécificité de la reconnaissance moléculaire démontrée par l'ADN est sans parallèle dans le domaine des polymères synthétiques. Notre projet propose une nouvelle méthode pour transcrire de l'information génétique d'un brin d'ADN dans un polymère synthétique. Grâce à la reconnaissance moléculaire entre les paires de bases complémentaires (A-T, G-C), nous visons l'assemblage de monomères dans l'ordre précis dicté par la séquence de l'ADN. La polymérisation subséquente des monomères figera cette séquence dans un nouveau polymère synthétique appelé ADN-mimétique. Deux stratégies pour la préparation de polymères ADN-mimétiques seront exposées. La première vise tout d'abord à déposer l'ADN de façon contrôlée sur un substrat solide. Cette approche implique la formation d'un complexe électrostatique entre l'ADN et un surfactant cationique à l'interface air-eau. L'interaction du surfactant avec l'ADN a été démontrée par la balance de Langmuir et la microscopie à l'angle de Brewster. De plus, la distribution des composants, l'orientation et la composition chimique des films transférés sur un support solide ont été déterminées par des techniques de microscopie, de spectroscopie infrarouge et d'analyse de surface. La seconde approche devant mener aussi à la formation d'un polymère d'ADN mimétique implique l'assemblage de monomères à l'interface air-eau sur un simple brin d'ADN dissous dans la phase aqueuse. Plusieurs monomères portant des bases azotées ont été synthétisés par nos collaborateurs (équipe d'Hanadi Sleiman, Université McGill). L'interaction entre ces molécules et l'ADN à l'interface air-eau a été étudiée avec une balance de Langmuir et par microscopie à l'angle de Brewster. La première génération de monomères étudiés ne forme malheureusement pas de film de Langmuir, et cela malgré la modification de plusieurs paramètres expérimentaux. Ces premiers résultats ont mené à la conception d'une seconde génération de molécules qui, dans ce cas, forment des monocouches stables à l'interface. Certaines indications obtenues par spectroscopie infrarouge laissent croire à une hybridation entre ces molécules et l'ADN. Enfin, une troisième génération de monomères formant des films de Langmuir a également été étudiée à l'interface air-eau et aussi sur des substrats solides. Nos travaux démontrent qu'il y a appariement de bases entre ces monomères et des acides nucléiques.
|
222 |
Depth texture synthesis for high resolution seamless reconstruction of large scenesLabrie-Larrivée, Félix 09 July 2018 (has links)
La numérisation 3D de scène à grande échelle est un problème complexe sans solution à la fois précise, rapide et abordable. Les scènes à grande échelle comme les façades d'édices comportent cependant des éléments répétitifs (fenêtres, briques, panneaux de bois) qui peuvent être utilisés pour améliorer le processus de numérisation. Notre approche, Depth Texture Synthesis, utilise un scan haute résolution d'un de ces éléments, effectué avec un scanneur RGBD, et transmet cette résolution élevée aux endroits où l'élément est répété ailleurs dans la scène. Cette transmission s'effectue suivant l'information fournie par une reconstruction SfM. Pour effectuer une procédure de Depth Texture Synthesis, la façade de l'édice est simplifiée en une géométrie planaire qui nous sert de canevas. Sur ce canevas nous projetons l'information RGB ainsi que l'information de profondeur du modèle échantillon haute résolution et du modèle SfM basse résolution. Ensuite, un algorithme puissant de synthèse de texture 2D est employé pour transmettre l'information de profondeur haute résolution suivant les patrons de profondeur basse résolution et d'information RGB. La nouvelle carte de profondeur haute résolution peut alors être reconvertie en modèle 3D pour un résultat beaucoup plus réaliste et visuellement détaillé que la reconstruction SfM. Il est aussi intéressant de noter que notre approche est beaucoup moins fastidieuse qu'un scan complet de la scène utilisant des scanneurs RGBD. Les outils utilisés (Kinect v2 et appareil photo) sont aussi très abordables en comparaison avec le Lidar. / Large scenes such as building facades are challenging environments for 3D reconstruction. These scenes often include repeating elements (windows, bricks, wood paneling) that can be exploited for the task of 3D reconstruction. Our approach, Depth Texture Synthesis, is based on that idea and aims to improve the quality of 3D model representation of large scenes. By scanning a sample of a repeating structure using a RGBD sensor, Depth Texture Synthesis can propagate the high resolution of that sample to similar parts of the scene. It does so following RGB and low resolution depth information of a SfM reconstruction. To handle this information the building facade is simplified into a planar primitive and serves as our canvas. The high resolution depth of the Kinect sample and low resolution depth of the SfM model as well as the RGB information are projected onto the canvas. Then, powerful image based texture synthesis algorithms are used to propagate the high resolution depth following cues in RGB and low resolution depth. The resulting synthesized high resolution depth is converted back into a 3D model that greatly improves on the SfM model with more detailed, more realistic looking geometry. Our approach is also much less labor intensive than RGBD sensors in large scenes and it is much more affordable than Lidar.
|
223 |
Le libéralisme politique de John Rawls et la reconnaissance des peuplesRoyer, Jean-Philippe January 2008 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
|
224 |
Distortion-aware transformer for depth estimation and object detectionShili, Ichrak 23 September 2024 (has links)
Les objectifs fisheye offrent un champ de vision plus large que les objectifs à sténopé, ce qui les rend largement utilisés dans diverses applications. Cependant, ces derniers créent des distorsions importantes dans les images, ce qui pose des défis pour les modèles de vision par ordinateur standards. Les approches actuelles conçues pour gérer la distorsion sont souvent spécifiques à un objectif et ont du mal à généraliser à différents objectifs sans ajustement. DarSwin [3], un encodeur transformer qui raisonne sur la distorsion (distortion-aware) en intégrant la courbe de projection de l'objectif, atteint des capacités de généralisation améliorées en classification. Ce mémoire étend DarSwin à l'estimation de profondeur monoculaire avec DarSwin-Unet, une nouvelle architecture encodeur-décodeur, inspirée de Swin-Unet [5], et qui s'adapte à la distorsion. L'évaluation sur le jeu de données synthétique fisheye Matterport3D démontre la robustesse de DarSwin-Unet face à toutes les distorsions par rapport aux autres approches. Le mémoire explore également l'extension de DarSwin à la détection d'objets en utilisant deux variantes de transformers de détection, DINO [71] et AdaMixer [16], sur le jeu de données Woodscape [70]. Contrairement aux modèles utilisant un backbone Swin [40], les modèles avec un backbone DarSwin ne dépendent pas de l'augmentation de données, confirmant ainsi la robustesse de DarSwin. / Fisheye lenses offer a wider field-of-view (FoV) than pinhole lenses, making them widely used in diverse applications. However, their significant distortions introduce challenges for standard computer vision models. Current approaches designed to handle distortion are often lens-specific and struggle to generalize across different lenses without fine-tuning. DarSwin [3], a distortion-aware encoder-only transformer that incorporates the lens projection curve, achieves enhanced generalization capabilities in classification. This thesis extends DarSwin to monocular depth estimation with DarSwin-Unet, a novel distortion-aware encoder-decoder architecture inspired by Swin-Unet [5]. Evaluation on the synthetic fisheye Matterport3D dataset demonstrates DarSwin-Unet's robustness across all distortions compared to other baselines. Further exploration involves extending DarSwin to object detection using two variants of detection transformers, DINO [71] and AdaMixer [16], on theWoodscape dataset [70]. Unlike models with a Swin [40] backbone, models with a DarSwin backbone show no overfitting in the absence of data augmentation, further highlighting DarSwin's robustness.
|
225 |
Perception de la joie et de la colère : distorsions temporelles selon l'origine culturelleMendoza Duran, Harold Esteban 27 January 2024 (has links)
Le but de la présente étude était d'identifier l'influence des émotions faciales et l'origine culturelle dans la perception de la durée des stimuli marquant des intervalles de 0,4 à 1,6 s. L'hypothèse posée était que la durée de présentation des visages exprimant de la colère ou de la joie serait plus souvent jugée comme longue que la durée de présentation d'une expression neutre. Une autre hypothèse stipulait que les participants venant des pays d'Europe de l'Ouest et d'Amérique du Nord, qui se caractérisent par un rythme de vie plus rapide et une plus grande importance accordée à la ponctualité, allaient surestimer le temps plus souvent que les participants d'Afrique centrale, du Nord et de l'Ouest et du Sud et l'Amérique centrale. Les stimuli présentés pour délimiter le temps étaient des visages féminins et masculins de trois groupes différents (Noirs, Blancs et Latino/A) exprimant de la joie, de la colère ou aucune émotion. Il y avait vingt participants dans chacun des quatre groupes venant de 1) l'Amérique du Nord, 2) l'Amérique latine, 3) l'Afrique centrale, du nord et de l'ouest, et 4) l'Europe occidentale. Les résultats révèlent que, dans l'ensemble, les participants d'Amérique latine estiment que la durée de présentation des visages est plus souvent longue que les participants de tous les autres groupes culturels de l'étude. De plus, les Latino-Américains ont répondu plus souvent « long » lorsqu'un visage masculin était présenté par rapport à un visage féminin. Finalement, les résultats indiquent également que les participants répondent « long » plus souvent lorsque la joie est exprimée par un visage masculin que par un visage féminin quel que soit le groupe culturel. / The aim of the present study was to investigate the impact of facial emotions and cultural differences on the perception of the duration of stimuli marking 0.4- to 1.6-s intervals. We posited the hypothesis that faces expressing anger and joy will be more often judged long than a neutral expression. Another hypothesis stipulated that the participants coming from the countries of West Europe and North America, who are characterized by a faster pace of life and a higher importance given to punctuality, would overestimate time more often than participants from Central, North and West Africa and South and Central America. The stimuli were female and male faces from three different groups (Black, White, and Latino/a people) expressing joy, anger, or no emotion. There were twenty participants in each of the four groups coming from 1) North America, 2) Latin America, 3) Central, North, and West Africa, and 4) Western Europe. The results reveal that, overall, participants from Latin America estimate that the presentation of faces is long more often than participants from all other cultural groups in the study. Moreover, Latin Americans responded more often long when a male face was presented compared to a female face. Finally, the results also indicate that participants respond "long" more often when joy is expressed by a male face than by a female face no matter the cultural group.
|
226 |
Deep representation learning for visual place recognitionAli-bey, Amar 22 March 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La navigation autonome a une longue histoire dans la recherche en robotique et attire de plus en plus l'attention de chercheurs et industriels. Actuellement, les véhicules autonomes dépendent largement du Système de Positionnement Global (GPS) pour la localisation. Toutefois, les lacunes du GPS dans les environnements urbains et souterrains rendent la localisation basée sur la vision une alternative intéressante. Cette dernière peut être réalisée au moyen de la Reconnaissance Visuelle de Lieux (RVL). Sujet qui sera traité en profondeur dans cette thèse. La Reconnaissance Visuelle de Lieu est la méthode par laquelle un système identifie un emplacement représenté dans une image requête en la comparant à une base de données préexistante correspondant à des lieux connus. Les techniques traditionnelles de reconnaissance visuelle reposent souvent sur des descripteurs de caractéristiques locales ou globales élaborés à la main, ce qui présente des difficultés inhérentes qui compliquent leur application à grande échelle. L'avènement des réseaux de neurones profonds a montré un potentiel significatif pour améliorer les capacités des méthodes de RVL. Ces réseaux nécessitent de grands ensembles de données pour l'entraînement et des fonctions de perte spécialisées pour l'apprentissage des paramètres, ouvrant ainsi de nouvelles voies pour la recherche et l'innovation dans ce domaine. Cette thèse propose une étude exhaustive de l'apprentissage profond pour la RVL. Elle se concentre sur trois composantes principales : l'ensemble de données d'entraînement, l'architecture du réseau de neurones et le processus d'apprentissage de paramètres. Tout d'abord, un ensemble de données à grande échelle composé de 560 000 images à travers 67 000 lieux, appelé GSV-Cities, est présenté. Cette base de données permet de relever les défis associés à la supervision faible qui entrave les méthodes existantes, ce qui se traduit par une amélioration des performances et une réduction significative du temps d'entraînement. De plus, l'importance des fonctions de perte issues de l'apprentissage de similarité est illustrée, particulièrement lorsqu'elles sont employées avec les étiquettes de haute précision fournies par GSV-Cities. S'ensuit MixVPR, une architecture d'aggrégation basée entièrement sur les perceptrons multicouches. Cette architecture surpasse les méthodes de RVL les plus avancées, et ce, sur plusieurs benchmarks, tant en termes de performances de reconnaissance qu'en efficacité de calcul. Finalement, une nouvelle technique de formation de batches est présentée. Elle s'appuie sur des descripteurs compacts pour échantillonner efficacement des mini-batches hautement informatifs à chaque itération d'entraînement. Cette méthode maintient un niveau élevé de paires et de triplets informatifs tout au long de la phase d'apprentissage, conduisant à une amélioration significative des performances globales. Collectivement, les contributions apportées par cette thèse contribuent à l'avancement de l'état de l'art en matière de reconnaissance visuelle de lieux, et établissent une base solide pour la recherche et le développement futurs dans ce domaine. / Autonomous navigation has a long history in robotics research and has recently attracted a lot of attention from researchers and industrials. Currently, autonomous vehicles depend largely on the Global Positioning System (GPS) for localization, whose limitations in urban and subterrenean settings make vision-based localization an attractive alternative. This can be done by means of Visual Place Recognition (VPR), which is addressed in depth in this thesis. Visual Place Recognition (VPR) is the method by which a system identifies a location depicted in a query image by comparing it to a pre-existing database of visual information corresponding to known locations. Traditional VPR techniques often rely on hand-crafted local or global feature descriptors, which present inherent challenges that complicate their application in large-scale settings. The emergence of deep neural networks has shown significant promise in advancing VPR methods capabilities. Such networks require extensive datasets for training and specialized loss functions for parameter learnin. This opens new avenues for research and innovation in the field of VPR. First, GSV-Cities, a large-scale dataset comprised of 560,000 images across 67,000 places, is introduced. This dataset alleviates the challenge of weak supervision that constrains current methods, leading to improved performance and significantly reduction in training time. The importance of similarity learning loss functions, especially when paired with the accurate labels of GSV-Cities, is also highlighted. Second, MixVPR, a new aggregation technique is presented. It outperforms existing state-of-the-art VPR methods on multiple benchmarks, not just in terms of accuracy but also in computational efficiency. Lastly, a novel batch formation technique is introduced, which utilizes compact proxy descriptors for the efficient sampling of highly informative mini-batches at each training iteration. This method maintains a high level of informative pairs and triplets throughout the training phase, leading to a substantial improvement in overall performance. Collectively, the contributions of this thesis serve to advance the current state-of-the-art in Visual Place Recognition (VPR), and establish a strong foundation for future research.
|
227 |
Les situations d'accréditation syndicale en vertu du code du travail du Québec de 1979 à 1982Rousseau, Gilbert 21 February 2024 (has links)
« Thèse présentée à l'École des gradués de l'Université Laval pour l'obtention du grade de maître ès arts (M.A.) (Relations industrielles) » / « La participation de différentes associations de salariés au processus d'accréditation donne lieu à une série de situations d'accréditation syndicale. La recherche porte sur les situations d'accréditation syndicale en vertu du Code du travail du Québec de 1979 à 1982. Elle vise d'abord à présenter les situations théoriques et réelles d'accréditation vues sous l'angle du caractère représentatif. Ses objectifs secondaires sont de voir si les amendements de la fin de 1977 au Code du travail ont produit les effets attendus et si l'approche théorique qui est développée pour définir les situations d'accréditation est valable compte tenu de l'expérience pratique. Pour réaliser ceci, trois chapitres sont élaborés. Le premier met en place les éléments de la vérification du caractère représentatif au Québec. Ainsi, la notion de caractère représentatif est définie et l'historique du monopole de la représentation syndicale en Amérique du Nord est brièvement abordé. Par la suite, il est question du rôle et des devoirs des intervenants en matière d'accréditation, des techniques de vérification du caractère représentatif et des conditions qui doivent être respectées pour l'obtention d'un certificat d'accréditation. Au deuxième chapitre, les situations d'accréditation syndicale sont examinées à l'aide d'une approche théorique. Ainsi, à partir de la conjugaison des dispositions prévues au Code du travail et d'une représentation matricielle des types d'association pouvant être impliquées par une requête en accréditation ; 23 situations sont élaborées. Leur regroupement donne lieu à la constitution d'un modèle susceptible d'expliquer et de prévoir l'ensemble des situations d'accréditation syndicale pour une même unité de négociation. Le dernier chapitre analyse les situations d'accréditation syndicale selon une approche empirique. Le modèle théorique retenu, pour faire l'étude des situations réelles, est celui développé à la deuxième partie. Les résultats démontrent que l'approche théorique est opérationnelle et qu'elle peut constituer un guide valable lors de l'étude des situations d'accréditation. Ils font aussi ressortir que 62.1% des requêtes en accréditation sont déposées en champ libre par une association majoritaire et seule dans la course. S'il n'y a pas d'objection au sujet de l'unité de négociation, l'agent d'accréditation pourra accréditer dans un délai d'environ quatre semaines (41,5% des cas). Lorsque l'employeur montre son désaccord sur l'unité, ce qui se produit de plus en plus, le commissaire du travail devra intervenir et pourra rendre une décision au bout de six mois environ (20,6% des cas). Les résultats du troisième chapitre révèlent de plus que le dénombrement des effectifs syndicaux demeure la technique privilégiée pour la vérification du caractère représentatif. Par ailleurs, les amendements de 1977 au Code du travail, visant à faciliter et è accélérer l'accès à l'accréditation (C.t. 23 al. b et 37 al. 2 et 3), n'ont pas produit les effets attendus et ce, principalement parce qu'ils représentent un risque important de rejet d'une requête en accréditation. »--Pages i-iii
|
228 |
Time-slice analysis of dyadic human activityZiaeefard, Maryam 24 April 2018 (has links)
La reconnaissance d’activités humaines à partir de données vidéo est utilisée pour la surveillance ainsi que pour des applications d’interaction homme-machine. Le principal objectif est de classer les vidéos dans l’une des k classes d’actions à partir de vidéos entièrement observées. Cependant, de tout temps, les systèmes intelligents sont améliorés afin de prendre des décisions basées sur des incertitudes et ou des informations incomplètes. Ce besoin nous motive à introduire le problème de l’analyse de l’incertitude associée aux activités humaines et de pouvoir passer à un nouveau niveau de généralité lié aux problèmes d’analyse d’actions. Nous allons également présenter le problème de reconnaissance d’activités par intervalle de temps, qui vise à explorer l’activité humaine dans un intervalle de temps court. Il a été démontré que l’analyse par intervalle de temps est utile pour la caractérisation des mouvements et en général pour l’analyse de contenus vidéo. Ces études nous encouragent à utiliser ces intervalles de temps afin d’analyser l’incertitude associée aux activités humaines. Nous allons détailler à quel degré de certitude chaque activité se produit au cours de la vidéo. Dans cette thèse, l’analyse par intervalle de temps d’activités humaines avec incertitudes sera structurée en 3 parties. i) Nous présentons une nouvelle famille de descripteurs spatiotemporels optimisés pour la prédiction précoce avec annotations d’intervalle de temps. Notre représentation prédictive du point d’intérêt spatiotemporel (Predict-STIP) est basée sur l’idée de la contingence entre intervalles de temps. ii) Nous exploitons des techniques de pointe pour extraire des points d’intérêts afin de représenter ces intervalles de temps. iii) Nous utilisons des relations (uniformes et par paires) basées sur les réseaux neuronaux convolutionnels entre les différentes parties du corps de l’individu dans chaque intervalle de temps. Les relations uniformes enregistrent l’apparence locale de la partie du corps tandis que les relations par paires captent les relations contextuelles locales entre les parties du corps. Nous extrayons les spécificités de chaque image dans l’intervalle de temps et examinons différentes façons de les agréger temporellement afin de générer un descripteur pour tout l’intervalle de temps. En outre, nous créons une nouvelle base de données qui est annotée à de multiples intervalles de temps courts, permettant la modélisation de l’incertitude inhérente à la reconnaissance d’activités par intervalle de temps. Les résultats expérimentaux montrent l’efficience de notre stratégie dans l’analyse des mouvements humains avec incertitude. / Recognizing human activities from video data is routinely leveraged for surveillance and human-computer interaction applications. The main focus has been classifying videos into one of k action classes from fully observed videos. However, intelligent systems must to make decisions under uncertainty, and based on incomplete information. This need motivates us to introduce the problem of analysing the uncertainty associated with human activities and move to a new level of generality in the action analysis problem. We also present the problem of time-slice activity recognition which aims to explore human activity at a small temporal granularity. Time-slice recognition is able to infer human behaviours from a short temporal window. It has been shown that temporal slice analysis is helpful for motion characterization and for video content representation in general. These studies motivate us to consider timeslices for analysing the uncertainty associated with human activities. We report to what degree of certainty each activity is occurring throughout the video from definitely not occurring to definitely occurring. In this research, we propose three frameworks for time-slice analysis of dyadic human activity under uncertainty. i) We present a new family of spatio-temporal descriptors which are optimized for early prediction with time-slice action annotations. Our predictive spatiotemporal interest point (Predict-STIP) representation is based on the intuition of temporal contingency between time-slices. ii) we exploit state-of-the art techniques to extract interest points in order to represent time-slices. We also present an accumulative uncertainty to depict the uncertainty associated with partially observed videos for the task of early activity recognition. iii) we use Convolutional Neural Networks-based unary and pairwise relations between human body joints in each time-slice. The unary term captures the local appearance of the joints while the pairwise term captures the local contextual relations between the parts. We extract these features from each frame in a time-slice and examine different temporal aggregations to generate a descriptor for the whole time-slice. Furthermore, we create a novel dataset which is annotated at multiple short temporal windows, allowing the modelling of the inherent uncertainty in time-slice activity recognition. All the three methods have been evaluated on TAP dataset. Experimental results demonstrate the effectiveness of our framework in the analysis of dyadic activities under uncertainty
|
229 |
Face recognition under transformations of intensityZhang, Yan 12 April 2018 (has links)
Variable illumination intensity on unsegmented human face is one of the most challenging problems for reliable face recognition. When the illumination conditions are uncontrolled in a scene, the output of face images will become quite different. We applied a new locally adaptive contrast-invariant filter (LACIF) method in face recognition. Multiplicative and additive transformations of intensity over face images are combined by this filter. And three correlations are calculated by a nonlinear way. The correlation peaks show that LACIF is invariant under a uniform intensity transformation over the face. An extended method based on LACIF is also applied in face recognition. In this method, a linear intensity gradient across the face is considered. A set of basis face images is established. And five correlation planes are combined in a nonlinear way. Thousands of computer simulations are performed to test the face recognition capability. Results show that the discrimination is excellent. We also applied traditional and extended LACIF methods in face recognition with real-world environment. Results with actual experiments demonstrate these methods are effective and robust in real-world face objects. Face recognition is invariant under the intensity transformation. The discrimination capability is good. / Nous avons appliqué une nouvelle méthode de LACIF (locally adaptive contrast-invariant filter ) dans la reconnaissance de visage. Des transformations multiplicatives et additives des images finies de visage d'intensité sont combinées par ce filtre. Les crêtes de corrélation prouvent que LACIF est invariable sous une transformation uniforme d'intensité au-dessus du visage. Une méthode prolongée basée sur LACIF est également appliquée dans la reconnaissance de visage. Dans cette méthode, un gradient linéaire d'intensité à travers le visage est considéré. Un ensemble d'images base de visage est établi. Des milliers de simulations sur ordinateur sont effectués pour examiner les possibilités la reconnaissance de visage. Les résultats prouvent que la discrimination est excellente. Nous avons également appliqué des méthodes traditionnelles et prolongées de LACIF dans la reconnaissance de visage avec l'environnement réel. Les résultats avec des expériences réelles démontrent la reconnaissance de visage est invariable sous la transformation d'intensité.
|
230 |
Deep learning for object detection in robotic grasping contextsMercier, Jean-Philippe 02 February 2024 (has links)
Dans la dernière décennie, les approches basées sur les réseaux de neurones convolutionnels sont devenus les standards pour la plupart des tâches en vision numérique. Alors qu'une grande partie des méthodes classiques de vision étaient basées sur des règles et algorithmes, les réseaux de neurones sont optimisés directement à partir de données d'entraînement qui sont étiquetées pour la tâche voulue. En pratique, il peut être difficile d'obtenir une quantité su sante de données d'entraînement ou d'interpréter les prédictions faites par les réseaux. Également, le processus d'entraînement doit être recommencé pour chaque nouvelle tâche ou ensemble d'objets. Au final, bien que très performantes, les solutions basées sur des réseaux de neurones peuvent être difficiles à mettre en place. Dans cette thèse, nous proposons des stratégies visant à contourner ou solutionner en partie ces limitations en contexte de détection d'instances d'objets. Premièrement, nous proposons d'utiliser une approche en cascade consistant à utiliser un réseau de neurone comme pré-filtrage d'une méthode standard de "template matching". Cette façon de faire nous permet d'améliorer les performances de la méthode de "template matching" tout en gardant son interprétabilité. Deuxièmement, nous proposons une autre approche en cascade. Dans ce cas, nous proposons d'utiliser un réseau faiblement supervisé pour générer des images de probabilité afin d'inférer la position de chaque objet. Cela permet de simplifier le processus d'entraînement et diminuer le nombre d'images d'entraînement nécessaires pour obtenir de bonnes performances. Finalement, nous proposons une architecture de réseau de neurones ainsi qu'une procédure d'entraînement permettant de généraliser un détecteur d'objets à des objets qui ne sont pas vus par le réseau lors de l'entraînement. Notre approche supprime donc la nécessité de réentraîner le réseau de neurones pour chaque nouvel objet. / In the last decade, deep convolutional neural networks became a standard for computer vision applications. As opposed to classical methods which are based on rules and hand-designed features, neural networks are optimized and learned directly from a set of labeled training data specific for a given task. In practice, both obtaining sufficient labeled training data and interpreting network outputs can be problematic. Additionnally, a neural network has to be retrained for new tasks or new sets of objects. Overall, while they perform really well, deployment of deep neural network approaches can be challenging. In this thesis, we propose strategies aiming at solving or getting around these limitations for object detection. First, we propose a cascade approach in which a neural network is used as a prefilter to a template matching approach, allowing an increased performance while keeping the interpretability of the matching method. Secondly, we propose another cascade approach in which a weakly-supervised network generates object-specific heatmaps that can be used to infer their position in an image. This approach simplifies the training process and decreases the number of required training images to get state-of-the-art performances. Finally, we propose a neural network architecture and a training procedure allowing detection of objects that were not seen during training, thus removing the need to retrain networks for new objects.
|
Page generated in 0.1031 seconds