21 |
Évaluer le potentiel et les défis de la variation intraspécifique pour les réseaux neuronaux profonds de reconnaissance de chants d’oiseaux : l’exemple des bruants des prés (Passerculus sandwichensis) de l’île Kent, Nouveau-BrunswickRondeau Saint-Jean, Camille 08 1900 (has links)
Les réseaux neuronaux profonds sont des outils prometteurs pour l'évaluation de la biodiversité aviaire, en particulier pour la détection des chants et la classification acoustique des espèces. Toutefois, on connaît mal l’étendue de leur capacité de généralisation face à la variation intraspécifique présente dans les chants d’oiseaux, ce qui pourrait mener à des biais.
Notre étude porte sur l'évaluation des performances de BirdNET, un réseau neuronal profond, pour le traitement d’un corpus d'enregistrements audio caractérisés par une variation intraspécifique significative, en utilisant l’exemple du chant du bruant des prés (Passerculus sandwichensis). Dans la population de l'île de Kent, au Nouveau-Brunswick, les individus sont suivis et enregistrés grâce à leurs bagues de couleur et la présence de microdialectes est solidement documentée. Nous avons recueilli et annoté 69 606 chants provenant de 52 individus et analysé ces données à l'aide d’une version récente de BirdNET.
Nos résultats révèlent que BirdNET démontre une précision globale suffisante, prédisant correctement 81,9 % des chants, ce qui dépasse les résultats rapportés par ses développeurs. Toutefois, nous avons observé une variation considérable dans les scores de confiance et les taux de prédiction exactes entre les individus, ce qui suggère des biais potentiels. Cependant, nos recherches n'ont pas mis en évidence de variation entre les résultats des différents microdialectes, ce qui souligne la relative robustesse de l'algorithme. Nous avançons que la variation observée entre les individus est due au fait que certains d’entre eux chantent systématiquement plus près des microphones, résultant en des chants plus clairs donc plus faciles à identifier.
Pour mieux comprendre le processus de prise de décision de BirdNET, nous avons tenté de produire des cartes d'activation de classe, qui constituent un outil précieux pour identifier les éléments d’un chant qui déterminent une prédiction. Cependant, il ne nous a pas été possible d’obtenir des cartes d’activation de classe d’après la version actuellement disponible du code de BirdNET sans avoir recours à des connaissances avancées en informatique. L'accès à des outils explicatifs adaptés aux innovations récentes dans les architectures de réseaux neuronaux
4
profonds serait crucial pour mieux interpréter les résultats et renforcer la confiance des utilisateurs.
Nos résultats soulignent la nécessité de poursuivre les recherches sur la capacité de généralisation des réseaux neuronaux profonds pour la bioacoustique en utilisant des ensembles de données monospécifiques portant sur de plus longues périodes ou des aires de répartition géographique plus vastes. En outre, l'extension de cette étude à des espèces ayant des répertoires plus importants ou des différences plus subtiles entre le chant des individus pourrait nous informer davantage sur les limites et le potentiel des algorithmes d'apprentissage profond pour la détection et la classification acoustiques des espèces.
En conclusion, notre étude démontre les performances prometteuses de BirdNET pour le traitement d'un large corpus de chants de bruants des prés, et confirme son potentiel en tant qu'outil précieux pour l'évaluation de la biodiversité aviaire. Les biais dus aux techniques d’enregistrement et la variation dans les taux de succès observés entre les individus méritent d'être étudiés plus en détail. / Machine learning, particularly deep neural networks, has gained prominence as a valuable tool in ecological studies and wildlife conservation planning. In the field of avian biodiversity assessment, deep neural networks have shown remarkable promise, particularly in acoustic species detection and classification. Despite their success, a critical knowledge gap exists concerning the generalization ability of these algorithms across intraspecific variation in bird song. This raises concerns about potential biases and misinterpretation of results.
This study focuses on evaluating the performance of BirdNET, a deep neural network, in processing audio recordings characterized by significant intraspecific variation in the Savannah Sparrow (Passerculus sandwichensis) song. Savannah Sparrows are an ideal candidate for this investigation, given their well-studied population on Kent Island, New Brunswick, Canada. Each male sings a unique, unchanging song throughout its life, and the population exhibits well-documented geographical microdialects.
We collected a large corpus of Savannah Sparrow songs using autonomous and focal recorders on Kent Island, yielding a total of 69,606 manually annotated songs from 52 different sparrows. We analyzed the audio data using BirdNET-Analyzer. The resulting confidence scores were used to assess the algorithm's performance across microdialects and individual birds.
Our results revealed that BirdNET exhibited considerable overall accuracy, correctly predicting 81.9% of the songs, which surpassed the results reported by the developers of BirdNET. We observed variations in BirdNET's confidence scores among individual birds, suggesting potential biases in its classifications. However, our investigation indicated no evidence of distinct biases towards specific microdialects, highlighting the algorithm's relative robustness across these groups. We suspect that the variation observed amongst individuals is caused by the fact that some were singing consistently closer to microphones, yielding clearer songs.
To gain insights into BirdNET's decision-making process, we sought to employ class activation maps, a valuable tool for identifying essential song elements contributing to species predictions. However, we were unable to produce class activation maps from the current version of BirdNET
6
without advanced computer science skills. Access to informative tools adapted to recent innovations in deep neural network architectures for bioacoustic applications is crucial for understanding and interpreting results better. Such tools would enhance user confidence and favour accountability for conservation decisions based on these predictions.
Our findings underscore the need for further research investigating the generalization capacity of deep neural networks in bioacoustics on single-species datasets with more extensive intraspecific variation and broader geographical ranges. Additionally, expanding this investigation to species with larger song repertoires or more subtle inter-individual song differences could provide valuable insights into the limits and potential of deep learning algorithms for acoustic species detection and classification.
In conclusion, our study demonstrates BirdNET's promising performance in processing a large corpus of Savannah Sparrow songs, highlighting its potential as a valuable tool for avian biodiversity assessment. Biases and variations in confidence scores observed across individual birds warrant further investigation.
|
22 |
Detecting pre-error states and process deviations resulting from cognitive overload in aircraft pilotsPietracupa, Massimo 12 1900 (has links)
Les pilotes d'avion sont constamment confrontés à des situations où ils doivent traiter des quantités importantes de données en très peu de temps, ce qui peut conduire à des erreurs. Nous avons créé un système de détection des écarts capable d'auditer le cockpit en temps réel pour détecter les actions qui ont été incorrectement ajoutées, omises ou qui n'ont pas été effectuées dans le bon ordre. Ce modèle évalue les écarts en se basant sur les données hiérarchiques des tâches trouvées dans le modèle de référence ontologique pour les procédures de pilotage, qui contient des procédures de référence basées sur la connaissance et rassemblées par des experts dans le domaine. Les actions des pilotes sont comparées aux séquences de référence de l'ontologie à l'aide de l'algorithme Needleman-Wunsch pour l'alignement global, ainsi que d'un réseau LSTM siamois. Une API pouvant être étendue à plusieurs simulateurs aérospatiaux, ainsi qu'un Runner, ont été créés pour permettre au Deviation Framework de se connecter au simulateur XPlane afin de surveiller le système en temps réel. Des données créées synthétiquement et contenant des mutations de séquences ont été analysées à des fins de test. Les résultats montrent que ce cadre est capable de détecter les erreurs ajoutées, omises et hors séquence. En outre, les capacités des réseaux siamois sont exploitées pour comprendre la relation de certaines anomalies de la chaîne de séquence afin qu'elles puissent être correctement ignorées (comme certaines tâches qui peuvent être exécutées dans le désordre par rapport à la séquence de référence). Les environnements de simulation enregistrant les données à une fréquence de 10 Hz, une valeur de 0.1 seconde constitue notre référence en temps réel. Ces évaluations de déviation peuvent être exécutées plus rapidement que notre contrainte de 0,1 seconde et ont été réalisées en 0,0179 seconde pour une séquence de décollage contenant 23 actions, ce qui est nettement plus performant que les modèles suivants de l'état de l'art. Les résultats de l'évaluation suggèrent que l'approche proposée pourrait être appliquée dans le domaine de l'aviation pour aider à détecter les erreurs avant qu'elles ne causent des dommages.
\\En outre, nous avons formé un modèle d'apprentissage automatique pour reconnaître les signaux de pré-erreur dans le cortex cingulaire antérieur (CCA) à l'aide des données de test Flanker de l'ensemble de données COG-BCI, qui peuvent ensuite être utilisées pour détecter les états de pré-erreur chez les pilotes d'avion. Divers modèles d'apprentissage automatique ont été appliqués à l'ensemble de données, notamment des machines à vecteurs de support (SVM), des forêts aléatoires, un double modèle de réseau neuronal convolutif (CNN) et un modèle Transformer. Au-delà des conclusions typiques de l'étude, notre objectif s'étend à l'évaluation de l'applicabilité du modèle dans un domaine secondaire, à savoir l'évaluation du pouvoir discriminant des classificateurs pendant les procédures de décollage pour les pilotes d'avion. Les résultats de l'analyse de l'ensemble de données FLANKER ont révélé la supériorité du modèle transformateur, avec des réductions notables des faux négatifs et un score final macro moyen F1 de 0,610, et un score final macro moyen F1 de 0,578 sur les données pilotes. Comme nous prévoyons une augmentation des performances du classificateur avec davantage de données d'entraînement et des bandes d'interrogation étendues, cette étude jette les bases d'une recherche plus poussée sur la prédiction des états erronés et les modèles d'optimisation de l'apprentissage automatique pour les ICB et les applications du monde réel. / Aircraft pilots are constantly undergoing situations where they must process significant amounts of data in very small periods of time, which may lead to mistakes. We have created a deviation detection system that is capable of auditing the cockpit in real time to detect actions that have been incorrectly added, omitted, or done out of sequence. This model assesses deviations based on hierarchical task data found in the Ontological Reference Model for Piloting Procedures, which contains knowledge-based reference procedures assembled by experts in the domain. Pilot actions are compared to ontology reference sequences using the Needleman-Wunsch algorithm for global alignment, as well as a Siamese LSTM network. An API that can be expanded to several Aerospace Simulators, as well as a Runner, was created to enable the Deviation Framework to connect to the XPlane simulator for real-time system monitoring. Synthetically created data containing sequence mutations were analyzed for testing. The results show that this framework is capable of detecting added, omitted, and out of sequence errors. Furthermore, the capabilities of Siamese networks are leveraged to understand the relation of certain sequence chain anomalies so that they can correctly be ignored (such as certain tasks that can be performed out of order from the reference sequence). With simulation environments recording data at a frequency of 10Hz, a value of 0.1 seconds is our real-time benchmark. These deviation assessments are capable of being run faster than our 0.1 second requirement and have been clocked at 0.0179 seconds for one Takeoff sequence containing 23 actions - significantly outperforming the next state of the art models. The evaluation results suggest that the proposed approach could be applied in aviation settings to help catch errors before harm is done.
\\Moreover, we have trained a machine learning model to recognize pre-error signals in the anterior cingulate cortex (ACC) using Flanker test data from the COG-BCI dataset, which can be subsequently employed to detect pre-error states in aviation pilots. Various machine learning models were applied to the dataset, including Support Vector Machines (SVM), Random Forests, double Convolutional Neural Network (CNN) model, and a Transformer model. Moving beyond typical study conclusions, our objective extends to assessing model applicability in a secondary domain —evaluating the classifiers' discriminative power during takeoff procedures for aviation pilots. Results from the analysis of the FLANKER dataset revealed the superiority of the transformer model, with notable reductions in false negatives and a final macro averaged F1 score of 0.610, and a final macro averaged F1 of 0.578 on the Pilot data. As we anticipate increases in classifier performance with more training data and extended polling bands, this study lays the groundwork for further research in erroneous state prediction and machine learning optimization models for BCI and real-world applications.
|
23 |
Développement d'une méthode connexionniste pour la détection et le diagnostic de défauts de systèmes de chauffageLi, Xiaoming 25 January 1996 (has links) (PDF)
L'accroissement des performances des systèmes de génie climatique de ces dernières années s'est accompagné d'une complexité accrue de ceux-ci. La compréhension de leur fonctionnement ainsi que !a détection et le diagnostic de leurs défauts deviennent de plus en plus difficiles pour les équipes de maintenance. Ces dernières souhaitent donc disposer d'outil performant d'aide à la détection des défauts ou dérives de fonctionnement et, éventuellement, d'aide au diagnostic des causes de ceux-ci. Cette thèse s'intéresse au développement d'un tel outil adapté aux systèmes de chauffage collectif à eau chaude. Les défauts pour lesquels il paraissait le plus utile de développer un outil de détection et de diagnostic ont d'abord été recensés. La modélisation-simulation du fonctionnement des cinq systèmes de chauffage avec et sans défauts a permis ensuite d'obtenir une base de données destinée au développement d'un outil de détection et de diagnostic. Un prototype de détection et de diagnostic basé sur la reconnaissance des formes a été développé en utilisant, comme outil de classification, un modèle connexionniste (réseaux de neurones multi-couches). Ce prototype a été testé sur les cinq systèmes simulés. Le résultat est satisfaisant avec un taux de réussite supérieur à 90% et un risque de fausse alarme inférieur à 2% pour l'ensemble des défauts des cinq systèmes simulés. Ceci bien que seules les données provenant d'un des systèmes aient été utilisées pour la phase d'apprentissage du prototype. Cette étude permet de penser que la généralisation du prototype vers des systèmes réels devrait donner des résultats intéressants. A l'issue de ce travail les principales perspectives consistent à : - valider l'outil de détection et de diagnostic ainsi développé sur des systèmes réels, - implanter celui-ci dans des systèmes de gestion technique des bâtiments en collaborant avec des industriels, - appliquer l'approche développée dans cette thèse à d'autres systèmes de génie climatique.
|
24 |
Precise Mapping for Retinal Photocoagulation in SLIM (Slit-Lamp Image Mosaicing) / Cartographie précise pour la photocoagulation rétinienne dans SLIM (Mosaïque de l’image de la lampe à fente)Prokopetc, Kristina 10 November 2017 (has links)
Cette thèse est issue d’un accord CIFRE entre le groupe de recherche EnCoV de l’Université Clermont Auvergne et la société Quantel Medical (www.quantel-medical.fr). Quantel Medical est une entreprise spécialisée dans le développement innovant des ultrasons et des produits laser en ophtalmologie. Cette thèse présente un travail de recherche visant à l’application du diagnostic assisté par ordinateur et du traitement des maladies de la rétine avec une utilisation du prototype industriel TrackScan développé par Quantel Medical. Plus précisément, elle contribue au problème du mosaicing précis de l’image de la lampe à fente (SLIM) et du recalage automatique et multimodal en utilisant les images SLIM avec l’angiographie par fluorescence (FA) pour aider à la photo coagulation pan-rétienne naviguée. Nous abordons trois problèmes différents.Le premier problème est lié à l’accumulation des erreurs du recalage en SLIM., il dérive de la mosaïque. Une approche commune pour obtenir la mosaïque consiste à calculer des transformations uniquement entre les images temporellement consécutives dans une séquence, puis à les combiner pour obtenir la transformation entre les vues non consécutives temporellement. Les nombreux algorithmes existants suivent cette approche. Malgré le faible coût de calcul et la simplicité de cette méthode, en raison de sa nature de ‘chaînage’, les erreurs d’alignement s’accumulent, ce qui entraîne une dérive des images dans la mosaïque. Nous proposons donc d’utilise les récents progrès réalisés dans les méthodes d’ajustement de faisceau et de présenter un cadre de réduction de la dérive spécialement conçu pour SLIM. Nous présentons aussi une nouvelle procédure de raffinement local.Deuxièmement, nous abordons le problème induit par divers types d’artefacts communs á l’imagerie SLIM. Ceus-sont liés à la lumière utilisée, qui dégrade considérablement la qualité géométrique et photométrique de la mosaïque. Les solutions existantes permettent de faire face aux blouissements forts qui corrompent entièrement le rendu de la rétine dans l’image tout en laissant de côté la correction des reflets spéculaires semi-transparents et reflets des lentilles. Cela introduit des images fantômes et des pertes d’information. En outre, les méthodes génériques ne produisent pas de résultats satisfaisants dans SLIM. Par conséquent, nous proposons une meilleure alternative en concevant une méthode basée sur une technique rapide en utilisant une seule image pour éliminer les éblouissements et la notion de feux spéculaires semi-transparents en utilisant les indications de mouvement pour la correction intelligente de reflet de lentille.Finalement, nous résolvons le problème du recalage multimodal automatique avec SLIM. Il existe une quantité importante de travaux sur le recalage multimodal de diverses modalités d’image rétinienne. Cependant, la majorité des méthodes existantes nécessitent une détection de points clés dans les deux modalités d’image, ce qui est une tâche très difficile. Dans le cas de SLIM et FA ils ne tiennent pas compte du recalage précis dans la zone maculaire - le repère prioritaire. En outre, personne n’a développé une solution entièrement automatique pour SLIM et FA. Dans cette thèse, nous proposons la première méthode capable de recolu ces deux modalités sans une saisie manuelle, en détectant les repères anatomiques uniquement sur une seule image pour assurer un recalage précis dans la zone maculaire. (...) / This thesis arises from an agreement Convention Industrielle de Formation par la REcherche (CIFRE) between the Endoscopy and Computer Vision (EnCoV) research group at Université Clermont Auvergne and the company Quantel Medical (www.quantel-medical.fr), which specializes in the development of innovative ultrasound and laser products in ophthalmology. It presents a research work directed at the application of computer-aided diagnosis and treatment of retinal diseases with a use of the TrackScan industrial prototype developed at Quantel Medical. More specifically, it contributes to the problem of precise Slit-Lamp Image Mosaicing (SLIM) and automatic multi-modal registration of SLIM with Fluorescein Angiography (FA) to assist navigated pan-retinal photocoagulation. We address three different problems.The first is a problem of accumulated registration errors in SLIM, namely the mosaicing drift.A common approach to image mosaicking is to compute transformations only between temporally consecutive images in a sequence and then to combine them to obtain the transformation between non-temporally consecutive views. Many existing algorithms follow this approach. Despite the low computational cost and the simplicity of such methods, due to its ‘chaining’ nature, alignment errors tend to accumulate, causing images to drift in the mosaic. We propose to use recent advances in key-frame Bundle Adjustment methods and present a drift reduction framework that is specifically designed for SLIM. We also introduce a new local refinement procedure.Secondly, we tackle the problem of various types of light-related imaging artifacts common in SLIM, which significantly degrade the geometric and photometric quality of the mosaic. Existing solutions manage to deal with strong glares which corrupt the retinal content entirely while leaving aside the correction of semi-transparent specular highlights and lens flare. This introduces ghosting and information loss. Moreover, related generic methods do not produce satisfactory results in SLIM. Therefore, we propose a better alternative by designing a method based on a fast single-image technique to remove glares and the notion of the type of semi-transparent specular highlights and motion cues for intelligent correction of lens flare.Finally, we solve the problem of automatic multi-modal registration of FA and SLIM. There exist a number of related works on multi-modal registration of various retinal image modalities. However, the majority of existing methods require a detection of feature points in both image modalities. This is a very difficult task for SLIM and FA. These methods do not account for the accurate registration in macula area - the priority landmark. Moreover, none has developed a fully automatic solution for SLIM and FA. In this thesis, we propose the first method that is able to register these two modalities without manual input by detecting retinal features only on one image and ensures an accurate registration in the macula area.The description of the extensive experiments that were used to demonstrate the effectiveness of each of the proposed methods is also provided. Our results show that (i) using our new local refinement procedure for drift reduction significantly ameliorates the to drift reduction allowing us to achieve an improvement in precision over the current solution employed in the TrackScan; (ii) the proposed methodology for correction of light-related artifacts exhibits a good efficiency, significantly outperforming related works in SLIM; and (iii) despite our solution for multi-modal registration builds on existing methods, with the various specific modifications made, it is fully automatic, effective and improves the baseline registration method currently used on the TrackScan.
|
25 |
Open source quality control tool for translation memory using artificial intelligenceBhardwaj, Shivendra 08 1900 (has links)
La mémoire de traduction (MT) joue un rôle décisif lors de la traduction et constitue une base
de données idéale pour la plupart des professionnels de la langue. Cependant, une MT est très
sujète au bruit et, en outre, il n’y a pas de source spécifique. Des efforts importants ont été
déployés pour nettoyer des MT, en particulier pour former un meilleur système de traduction
automatique. Dans cette thèse, nous essayons également de nettoyer la MT mais avec un objectif
plus large : maintenir sa qualité globale et la rendre suffisament robuste pour un usage interne
dans les institutions. Nous proposons un processus en deux étapes : d’abord nettoyer une MT
institutionnelle (presque propre), c’est-à-dire éliminer le bruit, puis détecter les textes traduits à
partir de systèmes neuronaux de traduction.
Pour la tâche d’élimination du bruit, nous proposons une architecture impliquant cinq approches
basées sur l’heuristique, l’ingénierie fonctionnelle et l’apprentissage profond. Nous évaluons cette
tâche à la fois par annotation manuelle et traduction automatique (TA). Nous signalons un gain
notable de +1,08 score BLEU par rapport à un système de nettoyage état de l’art. Nous proposons
également un outil Web qui annote automatiquement les traductions incorrectes, y compris mal
alignées, pour les institutions afin de maintenir une MT sans erreur.
Les modèles neuronaux profonds ont considérablement amélioré les systèmes MT, et ces systèmes
traduisent une immense quantité de texte chaque jour. Le matériel traduit par de tels systèmes
finissent par peuplet les MT, et le stockage de ces unités de traduction dans TM n’est pas
idéal. Nous proposons un module de détection sous deux conditions: une tâche bilingue et une
monolingue (pour ce dernier cas, le classificateur ne regarde que la traduction, pas la phrase
originale). Nous rapportons une précision moyenne d’environ 85 % en domaine et 75 % hors
domaine dans le cas bilingue et 81 % en domaine et 63 % hors domaine pour le cas monolingue
en utilisant des classificateurs d’apprentissage profond. / Translation Memory (TM) plays a decisive role during translation and is the go-to database for
most language professionals. However, they are highly prone to noise, and additionally, there is no
one specific source. There have been many significant efforts in cleaning the TM, especially for
training a better Machine Translation system. In this thesis, we also try to clean the TM but with a
broader goal of maintaining its overall quality and making it robust for internal use in institutions.
We propose a two-step process, first clean an almost clean TM, i.e. noise removal and then detect
texts translated from neural machine translation systems.
For the noise removal task, we propose an architecture involving five approaches based on heuristics, feature engineering, and deep-learning and evaluate this task by both manual annotation and
Machine Translation (MT). We report a notable gain of +1.08 BLEU score over a state-of-the-art,
off-the-shelf TM cleaning system. We also propose a web-based tool “OSTI: An Open-Source
Translation-memory Instrument” that automatically annotates the incorrect translations (including
misaligned) for the institutions to maintain an error-free TM.
Deep neural models tremendously improved MT systems, and these systems are translating an
immense amount of text every day. The automatically translated text finds a way to TM, and
storing these translation units in TM is not ideal. We propose a detection module under two
settings: a monolingual task, in which the classifier only looks at the translation; and a bilingual
task, in which the source text is also taken into consideration. We report a mean accuracy of around
85% in-domain and 75% out-of-domain for bilingual and 81% in-domain and 63% out-of-domain
from monolingual tasks using deep-learning classifiers.
|
26 |
PatchUp : a feature-space block-level regularization technique for convolutional neural networksFaramarzi, Mojtaba 07 1900 (has links)
Les modèles d’apprentissage profond à large capacité ont souvent tendance à présenter de hauts écarts de généralisation lorsqu’ils sont entrainés avec une quantité limitée de données étiquetées. Dans ce cas, des réseaux de neurones très profonds et larges auront tendance à mémoriser les échantillons de données et donc ils risquent d’être vulnérables lors d’un léger décalage dans la distribution des données au moment de tester. Ce problème produit une généralisation pauvre lors de changements dans la répartition des données au moment du test. Pour surmonter ce problème, certaines méthodes basées sur la dépendance et l’indépendance de données ont été proposées. Une récente classe de méthodes efficaces pour aborder ce problème utilise plusieurs manières de contruire un nouvel échantillon d’entrainement, en mixant une paire (ou plusieurs) échantillons d’entrainement. Dans cette thèse, nous introduisons PatchUp, une régularisation de l’espace des caractéristiques au niveau des blocs dépendant des données qui opère dans l’espace caché en masquant des blocs contigus parmi les caractéristiques mappées, sélectionnés parmi une paire aléatoire d’échantillons, puis en mixant (Soft PatchUp) ou en échangeant (Hard PatchUp) les blocs contigus sélectionnés. Notre méthode de régularisation n’ajoute pas de surcharge de calcul significative au CNN pendant l’entrainement du modèle. Notre approche améliore la robustesse des modèles CNN face au problème d’intrusion du collecteur qui pourrait apparaitre dans d’autres approches de mixage telles que Mixup et CutMix. De plus, vu que nous mixons des blocs contigus de caractéristiques dans l’espace caché, qui a plus de dimensions que l’espace d’entrée, nous obtenons des échantillons plus diversifiés pour entrainer vers différentes dimensions. Nos expériences sur les ensembles de données CIFAR-10, CIFAR-100, SVHN et Tiny-ImageNet avec des architectures ResNet telles que PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101 et ResNet152 montrent que PatchUp dépasse ou égalise les performances de méthodes de régularisation pour CNN considérée comme état de l’art actuel. Nous montrons aussi que PatchUp peut fournir une meilleure généralisation pour des transformations affines d’échantillons et est plus robuste face à des attaques d’exemples contradictoires. PatchUp aide aussi les modèles CNN à produire une plus grande variété de caractéristiques dans les blocs résiduels en comparaison avec les méthodes de pointe de régularisation pour CNN telles que Mixup, Cutout, CutMix, ManifoldMixup et Puzzle Mix.
Mots clés: Apprentissage en profondeur, Réseau Neuronal Convolutif, Généralisation,Régularisation, Techniques de régularisation dépendantes et indépendantes des données, Robustesse aux attaques adverses. / Large capacity deep learning models are often prone to a high generalization gap when trained with a limited amount of labeled training data. And, in this case, very deep and wide networks have a tendency to memorize the samples, and therefore they might be vulnerable under a slight distribution shift at testing time. This problem yields poor generalization for data outside of the training data distribution. To overcome this issue some data-dependent and data-independent methods have been proposed. A recent class of successful methods to address this problem uses various ways to construct a new training sample by mixing a pair (or more) of training samples. In this thesis, we introduce PatchUp, a feature-space block-level data-dependent regularization that operates in the hidden space by masking out contiguous blocks of the feature map of a random pair of samples, and then either mixes (Soft PatchUp) or swaps (Hard PatchUp) these selected contiguous blocks. Our regularization method does not incur significant computational overhead for CNNs during training. Our approach improves the robustness of CNN models against the manifold intrusion problem that may occur in other state-of-the-art mixing approaches like Mixup and CutMix. Moreover, since we are mixing the contiguous block of features in the hidden space, which has more dimensions than the input space, we obtain more diverse samples for training towards different dimensions. Our experiments on CIFAR-10, CIFAR-100, SVHN, and Tiny-ImageNet datasets using ResNet architectures including PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101, and ResNet152 models show that PatchUp improves upon, or equals, the performance of current state-of-the-art regularizers for CNNs. We also show that PatchUp can provide a better generalization to affine transformations of samples and is more robust against adversarial attacks. PatchUp also helps a CNN model to produce a wider variety of features in the residual blocks compared to other state-of-the-art regularization methods for CNNs such as Mixup, Cutout, CutMix, ManifoldMixup, and Puzzle Mix.
Key words: Deep Learning, Convolutional Neural Network, Generalization, Regular-ization, Data-dependent and Data-independent Regularization Techniques, Robustness to Adversarial Attacks.
|
27 |
Estimation de cartes d'énergie du bruit apériodique de la marche humaine avec une caméra de profondeur pour la détection de pathologies et modèles légers de détection d'objets saillants basés sur l'opposition de couleursNdayikengurukiye, Didier 06 1900 (has links)
Cette thèse a pour objectif l’étude de trois problèmes : l’estimation de cartes de saillance de l’énergie du bruit apériodique de la marche humaine par la perception de profondeur pour la détection de pathologies, les modèles de détection d’objets saillants en général et les modèles légers en particulier par l’opposition de couleurs.
Comme première contribution, nous proposons un système basé sur une caméra de profondeur et un tapis roulant, qui analyse les parties du corps du patient ayant un mouvement irrégulier, en termes de périodicité, pendant la marche. Nous supposons que la marche d'un sujet sain présente n'importe où dans son corps, pendant les cycles de marche, un signal de profondeur avec un motif périodique sans bruit. La présence de bruit et son importance peuvent être utilisées pour signaler la présence et l'étendue de pathologies chez le sujet. Notre système estime, à partir de chaque séquence vidéo, une carte couleur de saillance montrant les zones de fortes irrégularités de marche, en termes de périodicité, appelées énergie de bruit apériodique, de chaque sujet. Notre système permet aussi de détecter automatiquement les cartes des individus sains et ceux malades.
Nous présentons ensuite deux approches pour la détection d’objets saillants. Bien qu’ayant fait l’objet de plusieurs travaux de recherche, la détection d'objets saillants reste un défi. La plupart des modèles traitent la couleur et la texture séparément et les considèrent donc implicitement comme des caractéristiques indépendantes, à tort.
Comme deuxième contribution, nous proposons une nouvelle stratégie, à travers un modèle simple, presque sans paramètres internes, générant une carte de saillance robuste pour une image naturelle. Cette stratégie consiste à intégrer la couleur dans les motifs de texture pour caractériser une micro-texture colorée, ceci grâce au motif ternaire local (LTP) (descripteur de texture simple mais puissant) appliqué aux paires de couleurs. La dissemblance entre chaque paire de micro-textures colorées est calculée en tenant compte de la non-linéarité des micro-textures colorées et en préservant leurs distances, donnant une carte de saillance intermédiaire pour chaque espace de couleur. La carte de saillance finale est leur combinaison pour avoir des cartes robustes.
Le développement des réseaux de neurones profonds a récemment permis des performances élevées. Cependant, il reste un défi de développer des modèles de même performance pour des appareils avec des ressources limitées.
Comme troisième contribution, nous proposons une nouvelle approche pour un modèle léger de réseau neuronal profond de détection d'objets saillants, inspiré par les processus de double opposition du cortex visuel primaire, qui lient inextricablement la couleur et la forme dans la perception humaine des couleurs. Notre modèle proposé, CoSOV1net, est entraîné à partir de zéro, sans utiliser de ``backbones'' de classification d'images ou d'autres tâches. Les expériences sur les ensembles de données les plus utilisés et les plus complexes pour la détection d'objets saillants montrent que CoSOV1Net atteint des performances compétitives avec des modèles de l’état-de-l’art, tout en étant un modèle léger de détection d'objets saillants et pouvant être adapté aux environnements mobiles et aux appareils à ressources limitées. / The purpose of this thesis is to study three problems: the estimation of saliency maps of the aperiodic noise energy of human gait using depth perception for pathology detection, and to study models for salient objects detection in general and lightweight models in particular by color opposition.
As our first contribution, we propose a system based on a depth camera and a treadmill, which analyzes the parts of the patient's body with irregular movement, in terms of periodicity, during walking. We assume that a healthy subject gait presents anywhere in his (her) body, during gait cycles, a depth signal with a periodic pattern without noise. The presence of noise and its importance can be used to point out presence and extent of the subject’s pathologies. Our system estimates, from each video sequence, a saliency map showing the areas of strong gait irregularities, in terms of periodicity, called aperiodic noise energy, of each subject. Our system also makes it possible to automatically detect the saliency map of healthy and sick subjects.
We then present two approaches for salient objects detection. Although having been the subject of many research works, salient objects detection remains a challenge. Most models treat color and texture separately and therefore implicitly consider them as independent feature, erroneously.
As a second contribution, we propose a new strategy through a simple model, almost without internal parameters, generating a robust saliency map for a natural image. This strategy consists in integrating color in texture patterns to characterize a colored micro-texture thanks to the local ternary pattern (LTP) (simple but powerful texture descriptor) applied to the color pairs. The dissimilarity between each colored micro-textures pair is computed considering non-linearity from colored micro-textures and preserving their distances. This gives an intermediate saliency map for each color space. The final saliency map is their combination to have robust saliency map.
The development of deep neural networks has recently enabled high performance. However, it remains a challenge to develop models of the same performance for devices with limited resources.
As a third contribution, we propose a new approach for a lightweight salient objects detection deep neural network model, inspired by the double opponent process in the primary visual cortex, which inextricably links color and shape in human color perception. Our proposed model, namely CoSOV1net, is trained from scratch, without using any image classification backbones or other tasks. Experiments on the most used and challenging datasets for salient objects detection show that CoSOV1Net achieves competitive performance with state-of-the-art models, yet it is a lightweight detection model and it is a salient objects detection that can be adapted to mobile environments and resource-constrained devices.
|
28 |
Cartographier l’envahisseur : télédétection précoce du roseau commun (Phragmites australis) à l’aide des drones et de l’intelligence artificielleCaron-Guay, Antoine 04 1900 (has links)
Combiner les drones et l’intelligence artificielle afin de cartographier la végétation représente une nouvelle approche prometteuse susceptible d’améliorer la détection des espèces végétales exotiques envahissantes (EVEE). La résolution au sol élevée atteignable avec les drones et les innovations récentes en vision par ordinateur, notamment avec les réseaux neuronaux convolutifs, laissent penser qu'une détection précoce des EVEE serait possible, favorisant ainsi leur gestion. Dans cette étude, nous avons évalué la pertinence de cette approche pour cartographier l’emplacement du roseau commun (Phragmites australis subsp. australis) à l’intérieur d'un parc national situé dans le sud du Québec, Canada. Nous avons collecté des données à six dates distinctes durant la saison de croissance, couvrant des environnements présentant différents niveaux d'envahissement par le roseau. De façon générale, la performance du modèle était élevée pour les différentes dates et zones, surtout au niveau du rappel (moyenne globale de 0.89). Les résultats ont montré une augmentation de la performance pour atteindre un sommet à la suite de l’apparition de l’inflorescence en septembre (F1-score le plus haut à 0.98). De plus, une diminution de la résolution spatiale affectait négativement le rappel (diminution de 18% entre une résolution au sol de 0,15 cm pixel-1 et 1,50 cm pixel-1), mais n’avait pas un impact important sur la précision (diminution de 2%). Malgré des défis associés à la cartographie du roseau commun dans un contexte de gestion post-traitement, l'utilisation de drones et de l'apprentissage profond montre un grand potentiel pour la détection des EVEE lorsque appuyé par un jeu de données adapté. Nos résultats montrent que, d'un point de vue opérationnel, cette approche pourrait être un outil efficace pour accélérer le travail des biologistes sur le terrain et assurer une meilleure gestion des EVEE. / The combination of unoccupied aerial vehicles (UAVs) and artificial intelligence to map vegetation represents a promising new approach to improve the detection of invasive alien plant species (IAPS). The high spatial resolution achievable with UAVs and recent innovations in computer vision, especially with convolutional neural networks, suggest that early detection of IAPS could be possible, thus facilitating their management. In this study, we evaluated the suitability of this approach for mapping the location of common reed (Phragmites australis subsp. australis) within a national park located in southern Quebec, Canada. We collected data on six distinct dates during the growing season, covering environments with different levels of reed invasion. Overall, model performance was high for the different dates and zones, especially for recall (mean of 0.89). The results showed an increase in performance, reaching a peak following the appearance of the inflorescence in September (highest F1-score at 0.98). Furthermore, a decrease in spatial resolution negatively affected recall (18% decrease between a spatial resolution of 0.15 cm pixel-1 and 1.50 cm pixel-1) but did not have a strong impact on precision (2% decrease). Despite challenges associated with common reed mapping in a post-treatment monitoring context, the use of UAVs and deep learning shows great potential for IAPS detection when supported by a suitable dataset. Our results show that, from an operational point of view, this approach could be an effective tool for speeding up the work of biologists in the field and ensuring better management of IAPS.
|
Page generated in 0.0881 seconds