• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 973
  • 346
  • 113
  • 15
  • 10
  • 8
  • 4
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • Tagged with
  • 1551
  • 756
  • 274
  • 259
  • 241
  • 234
  • 231
  • 169
  • 163
  • 155
  • 151
  • 147
  • 141
  • 132
  • 123
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
221

Reconnaissance moléculaire à l'interface air-eau : une avancée vers les polymères "ADN-mimétiques"

Bisson, Mylène 16 April 2018 (has links)
Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2010-2011 / La spécificité de la reconnaissance moléculaire démontrée par l'ADN est sans parallèle dans le domaine des polymères synthétiques. Notre projet propose une nouvelle méthode pour transcrire de l'information génétique d'un brin d'ADN dans un polymère synthétique. Grâce à la reconnaissance moléculaire entre les paires de bases complémentaires (A-T, G-C), nous visons l'assemblage de monomères dans l'ordre précis dicté par la séquence de l'ADN. La polymérisation subséquente des monomères figera cette séquence dans un nouveau polymère synthétique appelé ADN-mimétique. Deux stratégies pour la préparation de polymères ADN-mimétiques seront exposées. La première vise tout d'abord à déposer l'ADN de façon contrôlée sur un substrat solide. Cette approche implique la formation d'un complexe électrostatique entre l'ADN et un surfactant cationique à l'interface air-eau. L'interaction du surfactant avec l'ADN a été démontrée par la balance de Langmuir et la microscopie à l'angle de Brewster. De plus, la distribution des composants, l'orientation et la composition chimique des films transférés sur un support solide ont été déterminées par des techniques de microscopie, de spectroscopie infrarouge et d'analyse de surface. La seconde approche devant mener aussi à la formation d'un polymère d'ADN mimétique implique l'assemblage de monomères à l'interface air-eau sur un simple brin d'ADN dissous dans la phase aqueuse. Plusieurs monomères portant des bases azotées ont été synthétisés par nos collaborateurs (équipe d'Hanadi Sleiman, Université McGill). L'interaction entre ces molécules et l'ADN à l'interface air-eau a été étudiée avec une balance de Langmuir et par microscopie à l'angle de Brewster. La première génération de monomères étudiés ne forme malheureusement pas de film de Langmuir, et cela malgré la modification de plusieurs paramètres expérimentaux. Ces premiers résultats ont mené à la conception d'une seconde génération de molécules qui, dans ce cas, forment des monocouches stables à l'interface. Certaines indications obtenues par spectroscopie infrarouge laissent croire à une hybridation entre ces molécules et l'ADN. Enfin, une troisième génération de monomères formant des films de Langmuir a également été étudiée à l'interface air-eau et aussi sur des substrats solides. Nos travaux démontrent qu'il y a appariement de bases entre ces monomères et des acides nucléiques.
222

Deep representation learning for visual place recognition

Ali-bey, Amar 22 March 2024 (has links)
Thèse ou mémoire avec insertion d'articles / La navigation autonome a une longue histoire dans la recherche en robotique et attire de plus en plus l'attention de chercheurs et industriels. Actuellement, les véhicules autonomes dépendent largement du Système de Positionnement Global (GPS) pour la localisation. Toutefois, les lacunes du GPS dans les environnements urbains et souterrains rendent la localisation basée sur la vision une alternative intéressante. Cette dernière peut être réalisée au moyen de la Reconnaissance Visuelle de Lieux (RVL). Sujet qui sera traité en profondeur dans cette thèse. La Reconnaissance Visuelle de Lieu est la méthode par laquelle un système identifie un emplacement représenté dans une image requête en la comparant à une base de données préexistante correspondant à des lieux connus. Les techniques traditionnelles de reconnaissance visuelle reposent souvent sur des descripteurs de caractéristiques locales ou globales élaborés à la main, ce qui présente des difficultés inhérentes qui compliquent leur application à grande échelle. L'avènement des réseaux de neurones profonds a montré un potentiel significatif pour améliorer les capacités des méthodes de RVL. Ces réseaux nécessitent de grands ensembles de données pour l'entraînement et des fonctions de perte spécialisées pour l'apprentissage des paramètres, ouvrant ainsi de nouvelles voies pour la recherche et l'innovation dans ce domaine. Cette thèse propose une étude exhaustive de l'apprentissage profond pour la RVL. Elle se concentre sur trois composantes principales : l'ensemble de données d'entraînement, l'architecture du réseau de neurones et le processus d'apprentissage de paramètres. Tout d'abord, un ensemble de données à grande échelle composé de 560 000 images à travers 67 000 lieux, appelé GSV-Cities, est présenté. Cette base de données permet de relever les défis associés à la supervision faible qui entrave les méthodes existantes, ce qui se traduit par une amélioration des performances et une réduction significative du temps d'entraînement. De plus, l'importance des fonctions de perte issues de l'apprentissage de similarité est illustrée, particulièrement lorsqu'elles sont employées avec les étiquettes de haute précision fournies par GSV-Cities. S'ensuit MixVPR, une architecture d'aggrégation basée entièrement sur les perceptrons multicouches. Cette architecture surpasse les méthodes de RVL les plus avancées, et ce, sur plusieurs benchmarks, tant en termes de performances de reconnaissance qu'en efficacité de calcul. Finalement, une nouvelle technique de formation de batches est présentée. Elle s'appuie sur des descripteurs compacts pour échantillonner efficacement des mini-batches hautement informatifs à chaque itération d'entraînement. Cette méthode maintient un niveau élevé de paires et de triplets informatifs tout au long de la phase d'apprentissage, conduisant à une amélioration significative des performances globales. Collectivement, les contributions apportées par cette thèse contribuent à l'avancement de l'état de l'art en matière de reconnaissance visuelle de lieux, et établissent une base solide pour la recherche et le développement futurs dans ce domaine. / Autonomous navigation has a long history in robotics research and has recently attracted a lot of attention from researchers and industrials. Currently, autonomous vehicles depend largely on the Global Positioning System (GPS) for localization, whose limitations in urban and subterrenean settings make vision-based localization an attractive alternative. This can be done by means of Visual Place Recognition (VPR), which is addressed in depth in this thesis. Visual Place Recognition (VPR) is the method by which a system identifies a location depicted in a query image by comparing it to a pre-existing database of visual information corresponding to known locations. Traditional VPR techniques often rely on hand-crafted local or global feature descriptors, which present inherent challenges that complicate their application in large-scale settings. The emergence of deep neural networks has shown significant promise in advancing VPR methods capabilities. Such networks require extensive datasets for training and specialized loss functions for parameter learnin. This opens new avenues for research and innovation in the field of VPR. First, GSV-Cities, a large-scale dataset comprised of 560,000 images across 67,000 places, is introduced. This dataset alleviates the challenge of weak supervision that constrains current methods, leading to improved performance and significantly reduction in training time. The importance of similarity learning loss functions, especially when paired with the accurate labels of GSV-Cities, is also highlighted. Second, MixVPR, a new aggregation technique is presented. It outperforms existing state-of-the-art VPR methods on multiple benchmarks, not just in terms of accuracy but also in computational efficiency. Lastly, a novel batch formation technique is introduced, which utilizes compact proxy descriptors for the efficient sampling of highly informative mini-batches at each training iteration. This method maintains a high level of informative pairs and triplets throughout the training phase, leading to a substantial improvement in overall performance. Collectively, the contributions of this thesis serve to advance the current state-of-the-art in Visual Place Recognition (VPR), and establish a strong foundation for future research.
223

Perception de la joie et de la colère : distorsions temporelles selon l'origine culturelle

Mendoza Duran, Harold Esteban 27 January 2024 (has links)
Le but de la présente étude était d'identifier l'influence des émotions faciales et l'origine culturelle dans la perception de la durée des stimuli marquant des intervalles de 0,4 à 1,6 s. L'hypothèse posée était que la durée de présentation des visages exprimant de la colère ou de la joie serait plus souvent jugée comme longue que la durée de présentation d'une expression neutre. Une autre hypothèse stipulait que les participants venant des pays d'Europe de l'Ouest et d'Amérique du Nord, qui se caractérisent par un rythme de vie plus rapide et une plus grande importance accordée à la ponctualité, allaient surestimer le temps plus souvent que les participants d'Afrique centrale, du Nord et de l'Ouest et du Sud et l'Amérique centrale. Les stimuli présentés pour délimiter le temps étaient des visages féminins et masculins de trois groupes différents (Noirs, Blancs et Latino/A) exprimant de la joie, de la colère ou aucune émotion. Il y avait vingt participants dans chacun des quatre groupes venant de 1) l'Amérique du Nord, 2) l'Amérique latine, 3) l'Afrique centrale, du nord et de l'ouest, et 4) l'Europe occidentale. Les résultats révèlent que, dans l'ensemble, les participants d'Amérique latine estiment que la durée de présentation des visages est plus souvent longue que les participants de tous les autres groupes culturels de l'étude. De plus, les Latino-Américains ont répondu plus souvent « long » lorsqu'un visage masculin était présenté par rapport à un visage féminin. Finalement, les résultats indiquent également que les participants répondent « long » plus souvent lorsque la joie est exprimée par un visage masculin que par un visage féminin quel que soit le groupe culturel. / The aim of the present study was to investigate the impact of facial emotions and cultural differences on the perception of the duration of stimuli marking 0.4- to 1.6-s intervals. We posited the hypothesis that faces expressing anger and joy will be more often judged long than a neutral expression. Another hypothesis stipulated that the participants coming from the countries of West Europe and North America, who are characterized by a faster pace of life and a higher importance given to punctuality, would overestimate time more often than participants from Central, North and West Africa and South and Central America. The stimuli were female and male faces from three different groups (Black, White, and Latino/a people) expressing joy, anger, or no emotion. There were twenty participants in each of the four groups coming from 1) North America, 2) Latin America, 3) Central, North, and West Africa, and 4) Western Europe. The results reveal that, overall, participants from Latin America estimate that the presentation of faces is long more often than participants from all other cultural groups in the study. Moreover, Latin Americans responded more often long when a male face was presented compared to a female face. Finally, the results also indicate that participants respond "long" more often when joy is expressed by a male face than by a female face no matter the cultural group.
224

Face recognition using infrared vision

Shoja Ghiass, Reza 20 April 2018 (has links)
Au cours de la dernière décennie, la reconnaissance de visage basée sur l’imagerie infrarouge (IR) et en particulier la thermographie IR est devenue une alternative prometteuse aux approches conventionnelles utilisant l’imagerie dans le spectre visible. En effet l’imagerie (visible et infrarouge) trouvent encore des contraintes à leur application efficace dans le monde réel. Bien qu’insensibles à toute variation d’illumination dans le spectre visible, les images IR sont caractérisées par des défis spécifiques qui leur sont propres, notamment la sensibilité aux facteurs qui affectent le rayonnement thermique du visage tels que l’état émotionnel, la température ambiante, la consommation d’alcool, etc. En outre, il est plus laborieux de corriger l’expression du visage et les changements de poses dans les images IR puisque leur contenu est moins riche aux hautes fréquences spatiales ce qui représente en fait une indication importante pour le calage de tout modèle déformable. Dans cette thèse, nous décrivons une nouvelle méthode qui répond à ces défis majeurs. Concrètement, pour remédier aux changements dans les poses et expressions du visage, nous générons une image synthétique frontale du visage qui est canonique et neutre vis-à-vis de toute expression faciale à partir d’une image du visage de pose et expression faciale arbitraires. Ceci est réalisé par l’application d’une déformation affine par morceaux précédée par un calage via un modèle d’apparence active (AAM). Ainsi, une de nos publications est la première publication qui explore l’utilisation d’un AAM sur les images IR thermiques ; nous y proposons une étape de prétraitement qui rehausse la netteté des images thermiques, ce qui rend la convergence de l’AAM rapide et plus précise. Pour surmonter le problème des images IR thermiques par rapport au motif exact du rayonnement thermique du visage, nous le décrivons celui-ci par une représentation s’appuyant sur des caractéristiques anatomiques fiables. Contrairement aux approches existantes, notre représentation n’est pas binaire ; elle met plutôt l’accent sur la fiabilité des caractéristiques extraites. Cela rend la représentation proposée beaucoup plus robuste à la fois à la pose et aux changements possibles de température. L’efficacité de l’approche proposée est démontrée sur la plus grande base de données publique des vidéos IR thermiques des visages. Sur cette base d’images, notre méthode atteint des performances de reconnaissance assez bonnes et surpasse de manière significative les méthodes décrites précédemment dans la littérature. L’approche proposée a également montré de très bonnes performances sur des sous-ensembles de cette base de données que nous avons montée nous-mêmes au sein de notre laboratoire. A notre connaissance, il s’agit de l’une des bases de données les plus importantes disponibles à l’heure actuelle tout en présentant certains défis. / Over the course of the last decade, infrared (IR) and particularly thermal IR imaging based face recognition has emerged as a promising complement to conventional, visible spectrum based approaches which continue to struggle when applied in the real world. While inherently insensitive to visible spectrum illumination changes, IR images introduce specific challenges of their own, most notably sensitivity to factors which affect facial heat emission patterns, e.g., emotional state, ambient temperature, etc. In addition, facial expression and pose changes are more difficult to correct in IR images because they are less rich in high frequency details which is an important cue for fitting any deformable model. In this thesis we describe a novel method which addresses these major challenges. Specifically, to normalize for pose and facial expression changes we generate a synthetic frontal image of a face in a canonical, neutral facial expression from an image of the face in an arbitrary pose and facial expression. This is achieved by piecewise affine warping which follows active appearance model (AAM) fitting. This is the first work which explores the use of an AAM on thermal IR images; we propose a pre-processing step which enhances details in thermal images, making AAM convergence faster and more accurate. To overcome the problem of thermal IR image sensitivity to the exact pattern of facial temperature emissions we describe a representation based on reliable anatomical features. In contrast to previous approaches, our representation is not binary; rather, our method accounts for the reliability of the extracted features. This makes the proposed representation much more robust both to pose and scale changes. The effectiveness of the proposed approach is demonstrated on the largest public database of thermal IR images of faces on which it achieves satisfying recognition performance and significantly outperforms previously described methods. The proposed approach has also demonstrated satisfying performance on subsets of the largest video database of the world gathered in our laboratory which will be publicly available free of charge in future. The reader should note that due to the very nature of the feature extraction method in our system (i.e., anatomical based nature of it), we anticipate high robustness of our system to some challenging factors such as the temperature changes. However, we were not able to investigate this in depth due to the limits which exist in gathering realistic databases. Gathering the largest video database considering some challenging factors is one of the other contributions of this research.
225

Le libéralisme politique de John Rawls et la reconnaissance des peuples

Royer, Jean-Philippe January 2008 (has links)
Mémoire numérisé par la Division de la gestion de documents et des archives de l'Université de Montréal.
226

Les situations d'accréditation syndicale en vertu du code du travail du Québec de 1979 à 1982

Rousseau, Gilbert 21 February 2024 (has links)
« Thèse présentée à l'École des gradués de l'Université Laval pour l'obtention du grade de maître ès arts (M.A.) (Relations industrielles) » / « La participation de différentes associations de salariés au processus d'accréditation donne lieu à une série de situations d'accréditation syndicale. La recherche porte sur les situations d'accréditation syndicale en vertu du Code du travail du Québec de 1979 à 1982. Elle vise d'abord à présenter les situations théoriques et réelles d'accréditation vues sous l'angle du caractère représentatif. Ses objectifs secondaires sont de voir si les amendements de la fin de 1977 au Code du travail ont produit les effets attendus et si l'approche théorique qui est développée pour définir les situations d'accréditation est valable compte tenu de l'expérience pratique. Pour réaliser ceci, trois chapitres sont élaborés. Le premier met en place les éléments de la vérification du caractère représentatif au Québec. Ainsi, la notion de caractère représentatif est définie et l'historique du monopole de la représentation syndicale en Amérique du Nord est brièvement abordé. Par la suite, il est question du rôle et des devoirs des intervenants en matière d'accréditation, des techniques de vérification du caractère représentatif et des conditions qui doivent être respectées pour l'obtention d'un certificat d'accréditation. Au deuxième chapitre, les situations d'accréditation syndicale sont examinées à l'aide d'une approche théorique. Ainsi, à partir de la conjugaison des dispositions prévues au Code du travail et d'une représentation matricielle des types d'association pouvant être impliquées par une requête en accréditation ; 23 situations sont élaborées. Leur regroupement donne lieu à la constitution d'un modèle susceptible d'expliquer et de prévoir l'ensemble des situations d'accréditation syndicale pour une même unité de négociation. Le dernier chapitre analyse les situations d'accréditation syndicale selon une approche empirique. Le modèle théorique retenu, pour faire l'étude des situations réelles, est celui développé à la deuxième partie. Les résultats démontrent que l'approche théorique est opérationnelle et qu'elle peut constituer un guide valable lors de l'étude des situations d'accréditation. Ils font aussi ressortir que 62.1% des requêtes en accréditation sont déposées en champ libre par une association majoritaire et seule dans la course. S'il n'y a pas d'objection au sujet de l'unité de négociation, l'agent d'accréditation pourra accréditer dans un délai d'environ quatre semaines (41,5% des cas). Lorsque l'employeur montre son désaccord sur l'unité, ce qui se produit de plus en plus, le commissaire du travail devra intervenir et pourra rendre une décision au bout de six mois environ (20,6% des cas). Les résultats du troisième chapitre révèlent de plus que le dénombrement des effectifs syndicaux demeure la technique privilégiée pour la vérification du caractère représentatif. Par ailleurs, les amendements de 1977 au Code du travail, visant à faciliter et è accélérer l'accès à l'accréditation (C.t. 23 al. b et 37 al. 2 et 3), n'ont pas produit les effets attendus et ce, principalement parce qu'ils représentent un risque important de rejet d'une requête en accréditation. »--Pages i-iii
227

Time-slice analysis of dyadic human activity

Ziaeefard, Maryam 24 April 2018 (has links)
La reconnaissance d’activités humaines à partir de données vidéo est utilisée pour la surveillance ainsi que pour des applications d’interaction homme-machine. Le principal objectif est de classer les vidéos dans l’une des k classes d’actions à partir de vidéos entièrement observées. Cependant, de tout temps, les systèmes intelligents sont améliorés afin de prendre des décisions basées sur des incertitudes et ou des informations incomplètes. Ce besoin nous motive à introduire le problème de l’analyse de l’incertitude associée aux activités humaines et de pouvoir passer à un nouveau niveau de généralité lié aux problèmes d’analyse d’actions. Nous allons également présenter le problème de reconnaissance d’activités par intervalle de temps, qui vise à explorer l’activité humaine dans un intervalle de temps court. Il a été démontré que l’analyse par intervalle de temps est utile pour la caractérisation des mouvements et en général pour l’analyse de contenus vidéo. Ces études nous encouragent à utiliser ces intervalles de temps afin d’analyser l’incertitude associée aux activités humaines. Nous allons détailler à quel degré de certitude chaque activité se produit au cours de la vidéo. Dans cette thèse, l’analyse par intervalle de temps d’activités humaines avec incertitudes sera structurée en 3 parties. i) Nous présentons une nouvelle famille de descripteurs spatiotemporels optimisés pour la prédiction précoce avec annotations d’intervalle de temps. Notre représentation prédictive du point d’intérêt spatiotemporel (Predict-STIP) est basée sur l’idée de la contingence entre intervalles de temps. ii) Nous exploitons des techniques de pointe pour extraire des points d’intérêts afin de représenter ces intervalles de temps. iii) Nous utilisons des relations (uniformes et par paires) basées sur les réseaux neuronaux convolutionnels entre les différentes parties du corps de l’individu dans chaque intervalle de temps. Les relations uniformes enregistrent l’apparence locale de la partie du corps tandis que les relations par paires captent les relations contextuelles locales entre les parties du corps. Nous extrayons les spécificités de chaque image dans l’intervalle de temps et examinons différentes façons de les agréger temporellement afin de générer un descripteur pour tout l’intervalle de temps. En outre, nous créons une nouvelle base de données qui est annotée à de multiples intervalles de temps courts, permettant la modélisation de l’incertitude inhérente à la reconnaissance d’activités par intervalle de temps. Les résultats expérimentaux montrent l’efficience de notre stratégie dans l’analyse des mouvements humains avec incertitude. / Recognizing human activities from video data is routinely leveraged for surveillance and human-computer interaction applications. The main focus has been classifying videos into one of k action classes from fully observed videos. However, intelligent systems must to make decisions under uncertainty, and based on incomplete information. This need motivates us to introduce the problem of analysing the uncertainty associated with human activities and move to a new level of generality in the action analysis problem. We also present the problem of time-slice activity recognition which aims to explore human activity at a small temporal granularity. Time-slice recognition is able to infer human behaviours from a short temporal window. It has been shown that temporal slice analysis is helpful for motion characterization and for video content representation in general. These studies motivate us to consider timeslices for analysing the uncertainty associated with human activities. We report to what degree of certainty each activity is occurring throughout the video from definitely not occurring to definitely occurring. In this research, we propose three frameworks for time-slice analysis of dyadic human activity under uncertainty. i) We present a new family of spatio-temporal descriptors which are optimized for early prediction with time-slice action annotations. Our predictive spatiotemporal interest point (Predict-STIP) representation is based on the intuition of temporal contingency between time-slices. ii) we exploit state-of-the art techniques to extract interest points in order to represent time-slices. We also present an accumulative uncertainty to depict the uncertainty associated with partially observed videos for the task of early activity recognition. iii) we use Convolutional Neural Networks-based unary and pairwise relations between human body joints in each time-slice. The unary term captures the local appearance of the joints while the pairwise term captures the local contextual relations between the parts. We extract these features from each frame in a time-slice and examine different temporal aggregations to generate a descriptor for the whole time-slice. Furthermore, we create a novel dataset which is annotated at multiple short temporal windows, allowing the modelling of the inherent uncertainty in time-slice activity recognition. All the three methods have been evaluated on TAP dataset. Experimental results demonstrate the effectiveness of our framework in the analysis of dyadic activities under uncertainty
228

The effect of a contextual and conceptual approach on word knowledge and comprehension of fifth grade students

McCann, Patricia 25 April 2018 (has links)
Québec Université Laval, Bibliothèque 2015
229

Face recognition under transformations of intensity

Zhang, Yan 12 April 2018 (has links)
Variable illumination intensity on unsegmented human face is one of the most challenging problems for reliable face recognition. When the illumination conditions are uncontrolled in a scene, the output of face images will become quite different. We applied a new locally adaptive contrast-invariant filter (LACIF) method in face recognition. Multiplicative and additive transformations of intensity over face images are combined by this filter. And three correlations are calculated by a nonlinear way. The correlation peaks show that LACIF is invariant under a uniform intensity transformation over the face. An extended method based on LACIF is also applied in face recognition. In this method, a linear intensity gradient across the face is considered. A set of basis face images is established. And five correlation planes are combined in a nonlinear way. Thousands of computer simulations are performed to test the face recognition capability. Results show that the discrimination is excellent. We also applied traditional and extended LACIF methods in face recognition with real-world environment. Results with actual experiments demonstrate these methods are effective and robust in real-world face objects. Face recognition is invariant under the intensity transformation. The discrimination capability is good. / Nous avons appliqué une nouvelle méthode de LACIF (locally adaptive contrast-invariant filter ) dans la reconnaissance de visage. Des transformations multiplicatives et additives des images finies de visage d'intensité sont combinées par ce filtre. Les crêtes de corrélation prouvent que LACIF est invariable sous une transformation uniforme d'intensité au-dessus du visage. Une méthode prolongée basée sur LACIF est également appliquée dans la reconnaissance de visage. Dans cette méthode, un gradient linéaire d'intensité à travers le visage est considéré. Un ensemble d'images base de visage est établi. Des milliers de simulations sur ordinateur sont effectués pour examiner les possibilités la reconnaissance de visage. Les résultats prouvent que la discrimination est excellente. Nous avons également appliqué des méthodes traditionnelles et prolongées de LACIF dans la reconnaissance de visage avec l'environnement réel. Les résultats avec des expériences réelles démontrent la reconnaissance de visage est invariable sous la transformation d'intensité.
230

Deep learning for object detection in robotic grasping contexts

Mercier, Jean-Philippe 02 February 2024 (has links)
Dans la dernière décennie, les approches basées sur les réseaux de neurones convolutionnels sont devenus les standards pour la plupart des tâches en vision numérique. Alors qu'une grande partie des méthodes classiques de vision étaient basées sur des règles et algorithmes, les réseaux de neurones sont optimisés directement à partir de données d'entraînement qui sont étiquetées pour la tâche voulue. En pratique, il peut être difficile d'obtenir une quantité su sante de données d'entraînement ou d'interpréter les prédictions faites par les réseaux. Également, le processus d'entraînement doit être recommencé pour chaque nouvelle tâche ou ensemble d'objets. Au final, bien que très performantes, les solutions basées sur des réseaux de neurones peuvent être difficiles à mettre en place. Dans cette thèse, nous proposons des stratégies visant à contourner ou solutionner en partie ces limitations en contexte de détection d'instances d'objets. Premièrement, nous proposons d'utiliser une approche en cascade consistant à utiliser un réseau de neurone comme pré-filtrage d'une méthode standard de "template matching". Cette façon de faire nous permet d'améliorer les performances de la méthode de "template matching" tout en gardant son interprétabilité. Deuxièmement, nous proposons une autre approche en cascade. Dans ce cas, nous proposons d'utiliser un réseau faiblement supervisé pour générer des images de probabilité afin d'inférer la position de chaque objet. Cela permet de simplifier le processus d'entraînement et diminuer le nombre d'images d'entraînement nécessaires pour obtenir de bonnes performances. Finalement, nous proposons une architecture de réseau de neurones ainsi qu'une procédure d'entraînement permettant de généraliser un détecteur d'objets à des objets qui ne sont pas vus par le réseau lors de l'entraînement. Notre approche supprime donc la nécessité de réentraîner le réseau de neurones pour chaque nouvel objet. / In the last decade, deep convolutional neural networks became a standard for computer vision applications. As opposed to classical methods which are based on rules and hand-designed features, neural networks are optimized and learned directly from a set of labeled training data specific for a given task. In practice, both obtaining sufficient labeled training data and interpreting network outputs can be problematic. Additionnally, a neural network has to be retrained for new tasks or new sets of objects. Overall, while they perform really well, deployment of deep neural network approaches can be challenging. In this thesis, we propose strategies aiming at solving or getting around these limitations for object detection. First, we propose a cascade approach in which a neural network is used as a prefilter to a template matching approach, allowing an increased performance while keeping the interpretability of the matching method. Secondly, we propose another cascade approach in which a weakly-supervised network generates object-specific heatmaps that can be used to infer their position in an image. This approach simplifies the training process and decreases the number of required training images to get state-of-the-art performances. Finally, we propose a neural network architecture and a training procedure allowing detection of objects that were not seen during training, thus removing the need to retrain networks for new objects.

Page generated in 0.032 seconds