• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 6
  • 2
  • Tagged with
  • 26
  • 26
  • 11
  • 9
  • 9
  • 8
  • 7
  • 7
  • 7
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Évaluer le potentiel et les défis de la variation intraspécifique pour les réseaux neuronaux profonds de reconnaissance de chants d’oiseaux : l’exemple des bruants des prés (Passerculus sandwichensis) de l’île Kent, Nouveau-Brunswick

Rondeau Saint-Jean, Camille 08 1900 (has links)
Les réseaux neuronaux profonds sont des outils prometteurs pour l'évaluation de la biodiversité aviaire, en particulier pour la détection des chants et la classification acoustique des espèces. Toutefois, on connaît mal l’étendue de leur capacité de généralisation face à la variation intraspécifique présente dans les chants d’oiseaux, ce qui pourrait mener à des biais. Notre étude porte sur l'évaluation des performances de BirdNET, un réseau neuronal profond, pour le traitement d’un corpus d'enregistrements audio caractérisés par une variation intraspécifique significative, en utilisant l’exemple du chant du bruant des prés (Passerculus sandwichensis). Dans la population de l'île de Kent, au Nouveau-Brunswick, les individus sont suivis et enregistrés grâce à leurs bagues de couleur et la présence de microdialectes est solidement documentée. Nous avons recueilli et annoté 69 606 chants provenant de 52 individus et analysé ces données à l'aide d’une version récente de BirdNET. Nos résultats révèlent que BirdNET démontre une précision globale suffisante, prédisant correctement 81,9 % des chants, ce qui dépasse les résultats rapportés par ses développeurs. Toutefois, nous avons observé une variation considérable dans les scores de confiance et les taux de prédiction exactes entre les individus, ce qui suggère des biais potentiels. Cependant, nos recherches n'ont pas mis en évidence de variation entre les résultats des différents microdialectes, ce qui souligne la relative robustesse de l'algorithme. Nous avançons que la variation observée entre les individus est due au fait que certains d’entre eux chantent systématiquement plus près des microphones, résultant en des chants plus clairs donc plus faciles à identifier. Pour mieux comprendre le processus de prise de décision de BirdNET, nous avons tenté de produire des cartes d'activation de classe, qui constituent un outil précieux pour identifier les éléments d’un chant qui déterminent une prédiction. Cependant, il ne nous a pas été possible d’obtenir des cartes d’activation de classe d’après la version actuellement disponible du code de BirdNET sans avoir recours à des connaissances avancées en informatique. L'accès à des outils explicatifs adaptés aux innovations récentes dans les architectures de réseaux neuronaux 4 profonds serait crucial pour mieux interpréter les résultats et renforcer la confiance des utilisateurs. Nos résultats soulignent la nécessité de poursuivre les recherches sur la capacité de généralisation des réseaux neuronaux profonds pour la bioacoustique en utilisant des ensembles de données monospécifiques portant sur de plus longues périodes ou des aires de répartition géographique plus vastes. En outre, l'extension de cette étude à des espèces ayant des répertoires plus importants ou des différences plus subtiles entre le chant des individus pourrait nous informer davantage sur les limites et le potentiel des algorithmes d'apprentissage profond pour la détection et la classification acoustiques des espèces. En conclusion, notre étude démontre les performances prometteuses de BirdNET pour le traitement d'un large corpus de chants de bruants des prés, et confirme son potentiel en tant qu'outil précieux pour l'évaluation de la biodiversité aviaire. Les biais dus aux techniques d’enregistrement et la variation dans les taux de succès observés entre les individus méritent d'être étudiés plus en détail. / Machine learning, particularly deep neural networks, has gained prominence as a valuable tool in ecological studies and wildlife conservation planning. In the field of avian biodiversity assessment, deep neural networks have shown remarkable promise, particularly in acoustic species detection and classification. Despite their success, a critical knowledge gap exists concerning the generalization ability of these algorithms across intraspecific variation in bird song. This raises concerns about potential biases and misinterpretation of results. This study focuses on evaluating the performance of BirdNET, a deep neural network, in processing audio recordings characterized by significant intraspecific variation in the Savannah Sparrow (Passerculus sandwichensis) song. Savannah Sparrows are an ideal candidate for this investigation, given their well-studied population on Kent Island, New Brunswick, Canada. Each male sings a unique, unchanging song throughout its life, and the population exhibits well-documented geographical microdialects. We collected a large corpus of Savannah Sparrow songs using autonomous and focal recorders on Kent Island, yielding a total of 69,606 manually annotated songs from 52 different sparrows. We analyzed the audio data using BirdNET-Analyzer. The resulting confidence scores were used to assess the algorithm's performance across microdialects and individual birds. Our results revealed that BirdNET exhibited considerable overall accuracy, correctly predicting 81.9% of the songs, which surpassed the results reported by the developers of BirdNET. We observed variations in BirdNET's confidence scores among individual birds, suggesting potential biases in its classifications. However, our investigation indicated no evidence of distinct biases towards specific microdialects, highlighting the algorithm's relative robustness across these groups. We suspect that the variation observed amongst individuals is caused by the fact that some were singing consistently closer to microphones, yielding clearer songs. To gain insights into BirdNET's decision-making process, we sought to employ class activation maps, a valuable tool for identifying essential song elements contributing to species predictions. However, we were unable to produce class activation maps from the current version of BirdNET 6 without advanced computer science skills. Access to informative tools adapted to recent innovations in deep neural network architectures for bioacoustic applications is crucial for understanding and interpreting results better. Such tools would enhance user confidence and favour accountability for conservation decisions based on these predictions. Our findings underscore the need for further research investigating the generalization capacity of deep neural networks in bioacoustics on single-species datasets with more extensive intraspecific variation and broader geographical ranges. Additionally, expanding this investigation to species with larger song repertoires or more subtle inter-individual song differences could provide valuable insights into the limits and potential of deep learning algorithms for acoustic species detection and classification. In conclusion, our study demonstrates BirdNET's promising performance in processing a large corpus of Savannah Sparrow songs, highlighting its potential as a valuable tool for avian biodiversity assessment. Biases and variations in confidence scores observed across individual birds warrant further investigation.
22

Développement d'une méthode connexionniste pour la détection et le diagnostic de défauts de systèmes de chauffage

Li, Xiaoming 25 January 1996 (has links) (PDF)
L'accroissement des performances des systèmes de génie climatique de ces dernières années s'est accompagné d'une complexité accrue de ceux-ci. La compréhension de leur fonctionnement ainsi que !a détection et le diagnostic de leurs défauts deviennent de plus en plus difficiles pour les équipes de maintenance. Ces dernières souhaitent donc disposer d'outil performant d'aide à la détection des défauts ou dérives de fonctionnement et, éventuellement, d'aide au diagnostic des causes de ceux-ci. Cette thèse s'intéresse au développement d'un tel outil adapté aux systèmes de chauffage collectif à eau chaude. Les défauts pour lesquels il paraissait le plus utile de développer un outil de détection et de diagnostic ont d'abord été recensés. La modélisation-simulation du fonctionnement des cinq systèmes de chauffage avec et sans défauts a permis ensuite d'obtenir une base de données destinée au développement d'un outil de détection et de diagnostic. Un prototype de détection et de diagnostic basé sur la reconnaissance des formes a été développé en utilisant, comme outil de classification, un modèle connexionniste (réseaux de neurones multi-couches). Ce prototype a été testé sur les cinq systèmes simulés. Le résultat est satisfaisant avec un taux de réussite supérieur à 90% et un risque de fausse alarme inférieur à 2% pour l'ensemble des défauts des cinq systèmes simulés. Ceci bien que seules les données provenant d'un des systèmes aient été utilisées pour la phase d'apprentissage du prototype. Cette étude permet de penser que la généralisation du prototype vers des systèmes réels devrait donner des résultats intéressants. A l'issue de ce travail les principales perspectives consistent à : - valider l'outil de détection et de diagnostic ainsi développé sur des systèmes réels, - implanter celui-ci dans des systèmes de gestion technique des bâtiments en collaborant avec des industriels, - appliquer l'approche développée dans cette thèse à d'autres systèmes de génie climatique.
23

Precise Mapping for Retinal Photocoagulation in SLIM (Slit-Lamp Image Mosaicing) / Cartographie précise pour la photocoagulation rétinienne dans SLIM (Mosaïque de l’image de la lampe à fente)

Prokopetc, Kristina 10 November 2017 (has links)
Cette thèse est issue d’un accord CIFRE entre le groupe de recherche EnCoV de l’Université Clermont Auvergne et la société Quantel Medical (www.quantel-medical.fr). Quantel Medical est une entreprise spécialisée dans le développement innovant des ultrasons et des produits laser en ophtalmologie. Cette thèse présente un travail de recherche visant à l’application du diagnostic assisté par ordinateur et du traitement des maladies de la rétine avec une utilisation du prototype industriel TrackScan développé par Quantel Medical. Plus précisément, elle contribue au problème du mosaicing précis de l’image de la lampe à fente (SLIM) et du recalage automatique et multimodal en utilisant les images SLIM avec l’angiographie par fluorescence (FA) pour aider à la photo coagulation pan-rétienne naviguée. Nous abordons trois problèmes différents.Le premier problème est lié à l’accumulation des erreurs du recalage en SLIM., il dérive de la mosaïque. Une approche commune pour obtenir la mosaïque consiste à calculer des transformations uniquement entre les images temporellement consécutives dans une séquence, puis à les combiner pour obtenir la transformation entre les vues non consécutives temporellement. Les nombreux algorithmes existants suivent cette approche. Malgré le faible coût de calcul et la simplicité de cette méthode, en raison de sa nature de ‘chaînage’, les erreurs d’alignement s’accumulent, ce qui entraîne une dérive des images dans la mosaïque. Nous proposons donc d’utilise les récents progrès réalisés dans les méthodes d’ajustement de faisceau et de présenter un cadre de réduction de la dérive spécialement conçu pour SLIM. Nous présentons aussi une nouvelle procédure de raffinement local.Deuxièmement, nous abordons le problème induit par divers types d’artefacts communs á l’imagerie SLIM. Ceus-sont liés à la lumière utilisée, qui dégrade considérablement la qualité géométrique et photométrique de la mosaïque. Les solutions existantes permettent de faire face aux blouissements forts qui corrompent entièrement le rendu de la rétine dans l’image tout en laissant de côté la correction des reflets spéculaires semi-transparents et reflets des lentilles. Cela introduit des images fantômes et des pertes d’information. En outre, les méthodes génériques ne produisent pas de résultats satisfaisants dans SLIM. Par conséquent, nous proposons une meilleure alternative en concevant une méthode basée sur une technique rapide en utilisant une seule image pour éliminer les éblouissements et la notion de feux spéculaires semi-transparents en utilisant les indications de mouvement pour la correction intelligente de reflet de lentille.Finalement, nous résolvons le problème du recalage multimodal automatique avec SLIM. Il existe une quantité importante de travaux sur le recalage multimodal de diverses modalités d’image rétinienne. Cependant, la majorité des méthodes existantes nécessitent une détection de points clés dans les deux modalités d’image, ce qui est une tâche très difficile. Dans le cas de SLIM et FA ils ne tiennent pas compte du recalage précis dans la zone maculaire - le repère prioritaire. En outre, personne n’a développé une solution entièrement automatique pour SLIM et FA. Dans cette thèse, nous proposons la première méthode capable de recolu ces deux modalités sans une saisie manuelle, en détectant les repères anatomiques uniquement sur une seule image pour assurer un recalage précis dans la zone maculaire. (...) / This thesis arises from an agreement Convention Industrielle de Formation par la REcherche (CIFRE) between the Endoscopy and Computer Vision (EnCoV) research group at Université Clermont Auvergne and the company Quantel Medical (www.quantel-medical.fr), which specializes in the development of innovative ultrasound and laser products in ophthalmology. It presents a research work directed at the application of computer-aided diagnosis and treatment of retinal diseases with a use of the TrackScan industrial prototype developed at Quantel Medical. More specifically, it contributes to the problem of precise Slit-Lamp Image Mosaicing (SLIM) and automatic multi-modal registration of SLIM with Fluorescein Angiography (FA) to assist navigated pan-retinal photocoagulation. We address three different problems.The first is a problem of accumulated registration errors in SLIM, namely the mosaicing drift.A common approach to image mosaicking is to compute transformations only between temporally consecutive images in a sequence and then to combine them to obtain the transformation between non-temporally consecutive views. Many existing algorithms follow this approach. Despite the low computational cost and the simplicity of such methods, due to its ‘chaining’ nature, alignment errors tend to accumulate, causing images to drift in the mosaic. We propose to use recent advances in key-frame Bundle Adjustment methods and present a drift reduction framework that is specifically designed for SLIM. We also introduce a new local refinement procedure.Secondly, we tackle the problem of various types of light-related imaging artifacts common in SLIM, which significantly degrade the geometric and photometric quality of the mosaic. Existing solutions manage to deal with strong glares which corrupt the retinal content entirely while leaving aside the correction of semi-transparent specular highlights and lens flare. This introduces ghosting and information loss. Moreover, related generic methods do not produce satisfactory results in SLIM. Therefore, we propose a better alternative by designing a method based on a fast single-image technique to remove glares and the notion of the type of semi-transparent specular highlights and motion cues for intelligent correction of lens flare.Finally, we solve the problem of automatic multi-modal registration of FA and SLIM. There exist a number of related works on multi-modal registration of various retinal image modalities. However, the majority of existing methods require a detection of feature points in both image modalities. This is a very difficult task for SLIM and FA. These methods do not account for the accurate registration in macula area - the priority landmark. Moreover, none has developed a fully automatic solution for SLIM and FA. In this thesis, we propose the first method that is able to register these two modalities without manual input by detecting retinal features only on one image and ensures an accurate registration in the macula area.The description of the extensive experiments that were used to demonstrate the effectiveness of each of the proposed methods is also provided. Our results show that (i) using our new local refinement procedure for drift reduction significantly ameliorates the to drift reduction allowing us to achieve an improvement in precision over the current solution employed in the TrackScan; (ii) the proposed methodology for correction of light-related artifacts exhibits a good efficiency, significantly outperforming related works in SLIM; and (iii) despite our solution for multi-modal registration builds on existing methods, with the various specific modifications made, it is fully automatic, effective and improves the baseline registration method currently used on the TrackScan.
24

Open source quality control tool for translation memory using artificial intelligence

Bhardwaj, Shivendra 08 1900 (has links)
La mémoire de traduction (MT) joue un rôle décisif lors de la traduction et constitue une base de données idéale pour la plupart des professionnels de la langue. Cependant, une MT est très sujète au bruit et, en outre, il n’y a pas de source spécifique. Des efforts importants ont été déployés pour nettoyer des MT, en particulier pour former un meilleur système de traduction automatique. Dans cette thèse, nous essayons également de nettoyer la MT mais avec un objectif plus large : maintenir sa qualité globale et la rendre suffisament robuste pour un usage interne dans les institutions. Nous proposons un processus en deux étapes : d’abord nettoyer une MT institutionnelle (presque propre), c’est-à-dire éliminer le bruit, puis détecter les textes traduits à partir de systèmes neuronaux de traduction. Pour la tâche d’élimination du bruit, nous proposons une architecture impliquant cinq approches basées sur l’heuristique, l’ingénierie fonctionnelle et l’apprentissage profond. Nous évaluons cette tâche à la fois par annotation manuelle et traduction automatique (TA). Nous signalons un gain notable de +1,08 score BLEU par rapport à un système de nettoyage état de l’art. Nous proposons également un outil Web qui annote automatiquement les traductions incorrectes, y compris mal alignées, pour les institutions afin de maintenir une MT sans erreur. Les modèles neuronaux profonds ont considérablement amélioré les systèmes MT, et ces systèmes traduisent une immense quantité de texte chaque jour. Le matériel traduit par de tels systèmes finissent par peuplet les MT, et le stockage de ces unités de traduction dans TM n’est pas idéal. Nous proposons un module de détection sous deux conditions: une tâche bilingue et une monolingue (pour ce dernier cas, le classificateur ne regarde que la traduction, pas la phrase originale). Nous rapportons une précision moyenne d’environ 85 % en domaine et 75 % hors domaine dans le cas bilingue et 81 % en domaine et 63 % hors domaine pour le cas monolingue en utilisant des classificateurs d’apprentissage profond. / Translation Memory (TM) plays a decisive role during translation and is the go-to database for most language professionals. However, they are highly prone to noise, and additionally, there is no one specific source. There have been many significant efforts in cleaning the TM, especially for training a better Machine Translation system. In this thesis, we also try to clean the TM but with a broader goal of maintaining its overall quality and making it robust for internal use in institutions. We propose a two-step process, first clean an almost clean TM, i.e. noise removal and then detect texts translated from neural machine translation systems. For the noise removal task, we propose an architecture involving five approaches based on heuristics, feature engineering, and deep-learning and evaluate this task by both manual annotation and Machine Translation (MT). We report a notable gain of +1.08 BLEU score over a state-of-the-art, off-the-shelf TM cleaning system. We also propose a web-based tool “OSTI: An Open-Source Translation-memory Instrument” that automatically annotates the incorrect translations (including misaligned) for the institutions to maintain an error-free TM. Deep neural models tremendously improved MT systems, and these systems are translating an immense amount of text every day. The automatically translated text finds a way to TM, and storing these translation units in TM is not ideal. We propose a detection module under two settings: a monolingual task, in which the classifier only looks at the translation; and a bilingual task, in which the source text is also taken into consideration. We report a mean accuracy of around 85% in-domain and 75% out-of-domain for bilingual and 81% in-domain and 63% out-of-domain from monolingual tasks using deep-learning classifiers.
25

PatchUp : a feature-space block-level regularization technique for convolutional neural networks

Faramarzi, Mojtaba 07 1900 (has links)
Les modèles d’apprentissage profond à large capacité ont souvent tendance à présenter de hauts écarts de généralisation lorsqu’ils sont entrainés avec une quantité limitée de données étiquetées. Dans ce cas, des réseaux de neurones très profonds et larges auront tendance à mémoriser les échantillons de données et donc ils risquent d’être vulnérables lors d’un léger décalage dans la distribution des données au moment de tester. Ce problème produit une généralisation pauvre lors de changements dans la répartition des données au moment du test. Pour surmonter ce problème, certaines méthodes basées sur la dépendance et l’indépendance de données ont été proposées. Une récente classe de méthodes efficaces pour aborder ce problème utilise plusieurs manières de contruire un nouvel échantillon d’entrainement, en mixant une paire (ou plusieurs) échantillons d’entrainement. Dans cette thèse, nous introduisons PatchUp, une régularisation de l’espace des caractéristiques au niveau des blocs dépendant des données qui opère dans l’espace caché en masquant des blocs contigus parmi les caractéristiques mappées, sélectionnés parmi une paire aléatoire d’échantillons, puis en mixant (Soft PatchUp) ou en échangeant (Hard PatchUp) les blocs contigus sélectionnés. Notre méthode de régularisation n’ajoute pas de surcharge de calcul significative au CNN pendant l’entrainement du modèle. Notre approche améliore la robustesse des modèles CNN face au problème d’intrusion du collecteur qui pourrait apparaitre dans d’autres approches de mixage telles que Mixup et CutMix. De plus, vu que nous mixons des blocs contigus de caractéristiques dans l’espace caché, qui a plus de dimensions que l’espace d’entrée, nous obtenons des échantillons plus diversifiés pour entrainer vers différentes dimensions. Nos expériences sur les ensembles de données CIFAR-10, CIFAR-100, SVHN et Tiny-ImageNet avec des architectures ResNet telles que PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101 et ResNet152 montrent que PatchUp dépasse ou égalise les performances de méthodes de régularisation pour CNN considérée comme état de l’art actuel. Nous montrons aussi que PatchUp peut fournir une meilleure généralisation pour des transformations affines d’échantillons et est plus robuste face à des attaques d’exemples contradictoires. PatchUp aide aussi les modèles CNN à produire une plus grande variété de caractéristiques dans les blocs résiduels en comparaison avec les méthodes de pointe de régularisation pour CNN telles que Mixup, Cutout, CutMix, ManifoldMixup et Puzzle Mix. Mots clés: Apprentissage en profondeur, Réseau Neuronal Convolutif, Généralisation,Régularisation, Techniques de régularisation dépendantes et indépendantes des données, Robustesse aux attaques adverses. / Large capacity deep learning models are often prone to a high generalization gap when trained with a limited amount of labeled training data. And, in this case, very deep and wide networks have a tendency to memorize the samples, and therefore they might be vulnerable under a slight distribution shift at testing time. This problem yields poor generalization for data outside of the training data distribution. To overcome this issue some data-dependent and data-independent methods have been proposed. A recent class of successful methods to address this problem uses various ways to construct a new training sample by mixing a pair (or more) of training samples. In this thesis, we introduce PatchUp, a feature-space block-level data-dependent regularization that operates in the hidden space by masking out contiguous blocks of the feature map of a random pair of samples, and then either mixes (Soft PatchUp) or swaps (Hard PatchUp) these selected contiguous blocks. Our regularization method does not incur significant computational overhead for CNNs during training. Our approach improves the robustness of CNN models against the manifold intrusion problem that may occur in other state-of-the-art mixing approaches like Mixup and CutMix. Moreover, since we are mixing the contiguous block of features in the hidden space, which has more dimensions than the input space, we obtain more diverse samples for training towards different dimensions. Our experiments on CIFAR-10, CIFAR-100, SVHN, and Tiny-ImageNet datasets using ResNet architectures including PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101, and ResNet152 models show that PatchUp improves upon, or equals, the performance of current state-of-the-art regularizers for CNNs. We also show that PatchUp can provide a better generalization to affine transformations of samples and is more robust against adversarial attacks. PatchUp also helps a CNN model to produce a wider variety of features in the residual blocks compared to other state-of-the-art regularization methods for CNNs such as Mixup, Cutout, CutMix, ManifoldMixup, and Puzzle Mix. Key words: Deep Learning, Convolutional Neural Network, Generalization, Regular-ization, Data-dependent and Data-independent Regularization Techniques, Robustness to Adversarial Attacks.
26

Estimation de cartes d'énergie du bruit apériodique de la marche humaine avec une caméra de profondeur pour la détection de pathologies et modèles légers de détection d'objets saillants basés sur l'opposition de couleurs

Ndayikengurukiye, Didier 06 1900 (has links)
Cette thèse a pour objectif l’étude de trois problèmes : l’estimation de cartes de saillance de l’énergie du bruit apériodique de la marche humaine par la perception de profondeur pour la détection de pathologies, les modèles de détection d’objets saillants en général et les modèles légers en particulier par l’opposition de couleurs. Comme première contribution, nous proposons un système basé sur une caméra de profondeur et un tapis roulant, qui analyse les parties du corps du patient ayant un mouvement irrégulier, en termes de périodicité, pendant la marche. Nous supposons que la marche d'un sujet sain présente n'importe où dans son corps, pendant les cycles de marche, un signal de profondeur avec un motif périodique sans bruit. La présence de bruit et son importance peuvent être utilisées pour signaler la présence et l'étendue de pathologies chez le sujet. Notre système estime, à partir de chaque séquence vidéo, une carte couleur de saillance montrant les zones de fortes irrégularités de marche, en termes de périodicité, appelées énergie de bruit apériodique, de chaque sujet. Notre système permet aussi de détecter automatiquement les cartes des individus sains et ceux malades. Nous présentons ensuite deux approches pour la détection d’objets saillants. Bien qu’ayant fait l’objet de plusieurs travaux de recherche, la détection d'objets saillants reste un défi. La plupart des modèles traitent la couleur et la texture séparément et les considèrent donc implicitement comme des caractéristiques indépendantes, à tort. Comme deuxième contribution, nous proposons une nouvelle stratégie, à travers un modèle simple, presque sans paramètres internes, générant une carte de saillance robuste pour une image naturelle. Cette stratégie consiste à intégrer la couleur dans les motifs de texture pour caractériser une micro-texture colorée, ceci grâce au motif ternaire local (LTP) (descripteur de texture simple mais puissant) appliqué aux paires de couleurs. La dissemblance entre chaque paire de micro-textures colorées est calculée en tenant compte de la non-linéarité des micro-textures colorées et en préservant leurs distances, donnant une carte de saillance intermédiaire pour chaque espace de couleur. La carte de saillance finale est leur combinaison pour avoir des cartes robustes. Le développement des réseaux de neurones profonds a récemment permis des performances élevées. Cependant, il reste un défi de développer des modèles de même performance pour des appareils avec des ressources limitées. Comme troisième contribution, nous proposons une nouvelle approche pour un modèle léger de réseau neuronal profond de détection d'objets saillants, inspiré par les processus de double opposition du cortex visuel primaire, qui lient inextricablement la couleur et la forme dans la perception humaine des couleurs. Notre modèle proposé, CoSOV1net, est entraîné à partir de zéro, sans utiliser de ``backbones'' de classification d'images ou d'autres tâches. Les expériences sur les ensembles de données les plus utilisés et les plus complexes pour la détection d'objets saillants montrent que CoSOV1Net atteint des performances compétitives avec des modèles de l’état-de-l’art, tout en étant un modèle léger de détection d'objets saillants et pouvant être adapté aux environnements mobiles et aux appareils à ressources limitées. / The purpose of this thesis is to study three problems: the estimation of saliency maps of the aperiodic noise energy of human gait using depth perception for pathology detection, and to study models for salient objects detection in general and lightweight models in particular by color opposition. As our first contribution, we propose a system based on a depth camera and a treadmill, which analyzes the parts of the patient's body with irregular movement, in terms of periodicity, during walking. We assume that a healthy subject gait presents anywhere in his (her) body, during gait cycles, a depth signal with a periodic pattern without noise. The presence of noise and its importance can be used to point out presence and extent of the subject’s pathologies. Our system estimates, from each video sequence, a saliency map showing the areas of strong gait irregularities, in terms of periodicity, called aperiodic noise energy, of each subject. Our system also makes it possible to automatically detect the saliency map of healthy and sick subjects. We then present two approaches for salient objects detection. Although having been the subject of many research works, salient objects detection remains a challenge. Most models treat color and texture separately and therefore implicitly consider them as independent feature, erroneously. As a second contribution, we propose a new strategy through a simple model, almost without internal parameters, generating a robust saliency map for a natural image. This strategy consists in integrating color in texture patterns to characterize a colored micro-texture thanks to the local ternary pattern (LTP) (simple but powerful texture descriptor) applied to the color pairs. The dissimilarity between each colored micro-textures pair is computed considering non-linearity from colored micro-textures and preserving their distances. This gives an intermediate saliency map for each color space. The final saliency map is their combination to have robust saliency map. The development of deep neural networks has recently enabled high performance. However, it remains a challenge to develop models of the same performance for devices with limited resources. As a third contribution, we propose a new approach for a lightweight salient objects detection deep neural network model, inspired by the double opponent process in the primary visual cortex, which inextricably links color and shape in human color perception. Our proposed model, namely CoSOV1net, is trained from scratch, without using any image classification backbones or other tasks. Experiments on the most used and challenging datasets for salient objects detection show that CoSOV1Net achieves competitive performance with state-of-the-art models, yet it is a lightweight detection model and it is a salient objects detection that can be adapted to mobile environments and resource-constrained devices.

Page generated in 0.0509 seconds