Global ETD Search

1	Prédiction de performances des systèmes de Reconnaissance Automatique de la Parole / Performance prediction of Automatic Speech Recognition systems Elloumi, Zied 18 March 2019 (has links) Nous abordons dans cette thèse la tâche de prédiction de performances des systèmes de reconnaissance automatique de la parole (SRAP).Il s'agit d'une tâche utile pour mesurer la fiabilité d'hypothèses de transcription issues d'une nouvelle collection de données, lorsque la transcription de référence est indisponible et que le SRAP utilisé est inconnu (boîte noire).Notre contribution porte sur plusieurs axes:d'abord, nous proposons un corpus français hétérogène pour apprendre et évaluer des systèmes de prédiction de performances ainsi que des systèmes de RAP.Nous comparons par la suite deux approches de prédiction: une approche à l'état de l'art basée sur l'extraction explicite de traitset une nouvelle approche basée sur des caractéristiques entraînées implicitement à l'aide des réseaux neuronaux convolutifs (CNN).L'utilisation jointe de traits textuels et acoustiques n'apporte pas de gains avec de l'approche état de l'art,tandis qu'elle permet d'obtenir de meilleures prédictions en utilisant les CNNs. Nous montrons également que les CNNs prédisent clairement la distribution des taux d'erreurs sur une collection d'enregistrements, contrairement à l'approche état de l'art qui génère une distribution éloignée de la réalité.Ensuite, nous analysons des facteurs impactant les deux approches de prédiction. Nous évaluons également l'impact de la quantité d'apprentissage des systèmes de prédiction ainsi que la robustesse des systèmes appris avec les sorties d'un système de RAP particulier et utilisés pour prédire la performance sur une nouvelle collection de données.Nos résultats expérimentaux montrent que les deux approches de prédiction sont robustes et que la tâche de prédiction est plus difficile sur des tours de parole courts ainsi que sur les tours de parole ayant un style de parole spontané.Enfin, nous essayons de comprendre quelles informations sont capturées par notre modèle neuronal et leurs liens avec différents facteurs.Nos expériences montrent que les représentations intermédiaires dans le réseau encodent implicitementdes informations sur le style de la parole, l'accent du locuteur ainsi que le type d'émission.Pour tirer profit de cette analyse, nous proposons un système multi-tâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance. / In this thesis, we focus on performance prediction of automatic speech recognition (ASR) systems.This is a very useful task to measure the reliability of transcription hypotheses for a new data collection, when the reference transcription is unavailable and the ASR system used is unknown (black box).Our contribution focuses on several areas: first, we propose a heterogeneous French corpus to learn and evaluate ASR prediction systems.We then compare two prediction approaches: a state-of-the-art (SOTA) performance prediction based on engineered features and a new strategy based on learnt features using convolutional neural networks (CNNs).While the joint use of textual and signal features did not work for the SOTA system, the combination of inputs for CNNs leads to the best WER prediction performance. We also show that our CNN prediction remarkably predicts the shape of the WER distribution on a collection of speech recordings.Then, we analyze factors impacting both prediction approaches. We also assess the impact of the training size of prediction systems as well as the robustness of systems learned with the outputs of a particular ASR system and used to predict performance on a new data collection.Our experimental results show that both prediction approaches are robust and that the prediction task is more difficult on short speech turns as well as spontaneous speech style.Finally, we try to understand which information is captured by our neural model and its relation with different factors.Our experiences show that intermediate representations in the network automatically encode information on the speech style, the speaker's accent as well as the broadcast program type.To take advantage of this analysis, we propose a multi-task system that is slightly more effective on the performance prediction task. Évaluation automatique Prédiction de performances Reconnaissance automatique de la parole Réseau neuronal convolutif Automatic evaluation Performance prediction Automatic speech recognition Convolutional neural networks 004
2	Deep learning compact and invariant image representations for instance retrieval / Représentations compactes et invariantes à l'aide de l'apprentissage profond pour la recherche d'images par similarité Morère, Olivier André Luc 08 July 2016 (has links) Nous avons précédemment mené une étude comparative entre les descripteurs FV et CNN dans le cadre de la recherche par similarité d’instance. Cette étude montre notamment que les descripteurs issus de CNN manquent d’invariance aux transformations comme les rotations ou changements d’échelle. Nous montrons dans un premier temps comment des réductions de dimension (“pooling”) appliquées sur la base de données d’images permettent de réduire fortement l’impact de ces problèmes. Certaines variantes préservent la dimensionnalité des descripteurs associés à une image, alors que d’autres l’augmentent, au prix du temps d’exécution des requêtes. Dans un second temps, nous proposons la réduction de dimension emboitée pour l’invariance (NIP), une méthode originale pour la production, à partir de descripteurs issus de CNN, de descripteurs globaux invariants à de multiples transformations. La méthode NIP est inspirée de la théorie pour l’invariance “i-theory”, une théorie mathématique proposée il y a peu pour le calcul de transformations invariantes à des groupes au sein de réseaux de neurones acycliques. Nous montrons que NIP permet d’obtenir des descripteurs globaux compacts (mais non binaires) et robustes aux rotations et aux changements d’échelle, que NIP est plus performants que les autres méthodes à dimensionnalité équivalente sur la plupart des bases de données d’images. Enfin, nous montrons que la combinaison de NIP avec la méthode de hachage RBMH proposée précédemment permet de produire des codes binaires à la fois compacts et invariants à plusieurs types de transformations. La méthode NIP+RBMH, évaluée sur des bases de données d’images de moyennes et grandes échelles, se révèle plus performante que l’état de l’art, en particulier dans le cas de descripteurs binaires de très petite taille (de 32 à 256 bits). / Image instance retrieval is the problem of finding an object instance present in a query image from a database of images. Also referred to as particular object retrieval, this problem typically entails determining with high precision whether the retrieved image contains the same object as the query image. Scale, rotation and orientation changes between query and database objects and background clutter pose significant challenges for this problem. State-of-the-art image instance retrieval pipelines consist of two major steps: first, a subset of images similar to the query are retrieved from the database, and second, Geometric Consistency Checks (GCC) are applied to select the relevant images from the subset with high precision. The first step is based on comparison of global image descriptors: high-dimensional vectors with up to tens of thousands of dimensions rep- resenting the image data. The second step is computationally highly complex and can only be applied to hundreds or thousands of images in practical applications. More discriminative global descriptors result in relevant images being more highly ranked, resulting in fewer images that need to be compared pairwise with GCC. As a result, better global descriptors are key to improving retrieval performance and have been the object of much recent interest. Furthermore, fast searches in large databases of millions or even billions of images requires the global descriptors to be compressed into compact representations. This thesis will focus on how to achieve extremely compact global descriptor representations for large-scale image instance retrieval. After introducing background concepts about supervised neural networks, Restricted Boltzmann Machine (RBM) and deep learning in Chapter 2, Chapter 3 will present the design principles and recent work for the Convolutional Neural Networks (CNN), which recently became the method of choice for large-scale image classification tasks. Next, an original multistage approach for the fusion of the output of multiple CNN is proposed. Submitted as part of the ILSVRC 2014 challenge, results show that this approach can significantly improve classification results. The promising perfor- mance of CNN is largely due to their capability to learn appropriate high-level visual representations from the data. Inspired by a stream of recent works showing that the representations learnt on one particular classification task can transfer well to other classification tasks, subsequent chapters will focus on the transferability of representa- tions learnt by CNN to image instance retrieval… Hachage Réseau neuronal convolutif Descripteurs globaux Invariance I-Theory Image instance retrieval Hashing Global descriptors 004
3	Rethinking continual learning approach and study out-of-distribution generalization algorithms Laleh, Touraj 08 1900 (has links) L'un des défis des systèmes d'apprentissage automatique actuels est que les paradigmes d'IA standard ne sont pas doués pour transférer (ou exploiter) les connaissances entre les tâches. Alors que de nombreux systèmes ont été formés et ont obtenu des performances élevées sur une distribution spécifique d'une tâche, il est pas facile de former des systèmes d'IA qui peuvent bien fonctionner sur un ensemble diversifié de tâches qui appartiennent aux différentes distributions. Ce problème a été abordé sous différents angles dans différents domaines, y compris l'apprentissage continu et la généralisation hors distribution. Si un système d'IA est formé sur un ensemble de tâches appartenant à différentes distributions, il pourrait oublier les connaissances acquises lors des tâches précédentes. En apprentissage continu, ce processus entraîne un oubli catastrophique qui est l'un des problèmes fondamentaux de ce domaine. La première projet de recherche dans cette thèse porte sur la comparaison d'un apprenant chaotique et d'un naïf configuration de l'apprentissage continu. La formation d'un modèle de réseau neuronal profond nécessite généralement plusieurs itérations, ou époques, sur l'ensemble de données d'apprentissage, pour mieux estimer les paramètres du modèle. La plupart des approches proposées pour ce problème tentent de compenser les effets de mises à jour des paramètres dans la configuration incrémentielle par lots dans laquelle le modèle de formation visite un grand nombre de échantillons pour plusieurs époques. Cependant, il n'est pas réaliste de s'attendre à ce que les données de formation soient toujours alimenté au modèle. Dans ce chapitre, nous proposons un apprenant de flux chaotique qui imite le chaotique comportement des neurones biologiques et ne met pas à jour les paramètres du réseau. De plus, il peut fonctionner avec moins d'échantillons par rapport aux modèles d'apprentissage en profondeur sur les configurations d'apprentissage par flux. Fait intéressant, nos expériences sur différents ensembles de données montrent que l'apprenant de flux chaotique a moins d'oubli catastrophique de par sa nature par rapport à un modèle CNN en continu apprentissage. Les modèles d'apprentissage en profondeur ont une performance de généralisation hors distribution naïve où la distribution des tests est inconnue et différente de la formation. Au cours des dernières années, il y a eu eu de nombreux projets de recherche pour comparer les algorithmes hors distribution, y compris la moyenne et méthodes basées sur les scores. Cependant, la plupart des méthodes proposées ne tiennent pas compte du niveau de difficulté de tâches. Le deuxième projet de recherche de cette thèse, l'analyse de certains éléments logiques et pratiques les forces et les inconvénients des méthodes existantes de comparaison et de classement hors distribution algorithmes. Nous proposons une nouvelle approche de classement pour définir les ratios de difficulté des tâches afin de comparer les algorithmes de généralisation hors distribution. Nous avons comparé la moyenne, basée sur le score, et des classements basés sur la difficulté de quatre tâches sélectionnées du benchmark WILDS et cinq algorithmes hors distribution populaires pour l'expérience. L'analyse montre d'importantes changements dans les ordres de classement par rapport aux approches de classement actuelles. / One of the challenges of current machine learning systems is that standard AI paradigms are not good at transferring (or leveraging) knowledge across tasks. While many systems have been trained and achieved high performance on a specific distribution of a task, it is not easy to train AI systems that can perform well on a diverse set of tasks that belong to different distributions. This problem has been addressed from different perspectives in different domains including continual learning and out-of-distribution generalization. If an AI system is trained on a set of tasks belonging to different distributions, it could forget the knowledge it acquired from previous tasks. In continual learning, this process results in catastrophic forgetting which is one of the core issues of this domain. The first research project in this thesis focuses on the comparison of a chaotic learner and a naive continual learning setup. Training a deep neural network model usually requires multiple iterations, or epochs, over the training data set, to better estimate the parameters of the model. Most proposed approaches for this issue try to compensate for the effects of parameter updates in the batch incremental setup in which the training model visits a lot of samples for several epochs. However, it is not realistic to expect training data will always be fed to the model. In this chapter, we propose a chaotic stream learner that mimics the chaotic behavior of biological neurons and does not update network parameters. In addition, it can work with fewer samples compared to deep learning models on stream learning setups. Interestingly, our experiments on different datasets show that the chaotic stream learner has less catastrophic forgetting by its nature in comparison to a CNN model in continual learning. Deep Learning models have a naive out-of-distribution~(OoD) generalization performance where the testing distribution is unknown and different from the training. In the last years, there have been many research projects to compare OoD algorithms, including average and score-based methods. However, most proposed methods do not consider the level of difficulty of tasks. The second research project in this thesis, analysis some logical and practical strengths and drawbacks of existing methods for comparing and ranking OoD algorithms. We propose a novel ranking approach to define the task difficulty ratios to compare OoD generalization algorithms. We compared the average, score-based, and difficulty-based rankings of four selected tasks from the WILDS benchmark and five popular OoD algorithms for the experiment. The analysis shows significant changes in the ranking orders compared with current ranking approaches. Apprentissage en profondeur Réseau Neuronal Convolutif Apprentissage continu Généralisation Deep Learning Convolutional Neural Network Continual Learning Generalization
4	PatchUp : a feature-space block-level regularization technique for convolutional neural networks Faramarzi, Mojtaba 07 1900 (has links) Les modèles d’apprentissage profond à large capacité ont souvent tendance à présenter de hauts écarts de généralisation lorsqu’ils sont entrainés avec une quantité limitée de données étiquetées. Dans ce cas, des réseaux de neurones très profonds et larges auront tendance à mémoriser les échantillons de données et donc ils risquent d’être vulnérables lors d’un léger décalage dans la distribution des données au moment de tester. Ce problème produit une généralisation pauvre lors de changements dans la répartition des données au moment du test. Pour surmonter ce problème, certaines méthodes basées sur la dépendance et l’indépendance de données ont été proposées. Une récente classe de méthodes efficaces pour aborder ce problème utilise plusieurs manières de contruire un nouvel échantillon d’entrainement, en mixant une paire (ou plusieurs) échantillons d’entrainement. Dans cette thèse, nous introduisons PatchUp, une régularisation de l’espace des caractéristiques au niveau des blocs dépendant des données qui opère dans l’espace caché en masquant des blocs contigus parmi les caractéristiques mappées, sélectionnés parmi une paire aléatoire d’échantillons, puis en mixant (Soft PatchUp) ou en échangeant (Hard PatchUp) les blocs contigus sélectionnés. Notre méthode de régularisation n’ajoute pas de surcharge de calcul significative au CNN pendant l’entrainement du modèle. Notre approche améliore la robustesse des modèles CNN face au problème d’intrusion du collecteur qui pourrait apparaitre dans d’autres approches de mixage telles que Mixup et CutMix. De plus, vu que nous mixons des blocs contigus de caractéristiques dans l’espace caché, qui a plus de dimensions que l’espace d’entrée, nous obtenons des échantillons plus diversifiés pour entrainer vers différentes dimensions. Nos expériences sur les ensembles de données CIFAR-10, CIFAR-100, SVHN et Tiny-ImageNet avec des architectures ResNet telles que PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101 et ResNet152 montrent que PatchUp dépasse ou égalise les performances de méthodes de régularisation pour CNN considérée comme état de l’art actuel. Nous montrons aussi que PatchUp peut fournir une meilleure généralisation pour des transformations affines d’échantillons et est plus robuste face à des attaques d’exemples contradictoires. PatchUp aide aussi les modèles CNN à produire une plus grande variété de caractéristiques dans les blocs résiduels en comparaison avec les méthodes de pointe de régularisation pour CNN telles que Mixup, Cutout, CutMix, ManifoldMixup et Puzzle Mix. Mots clés: Apprentissage en profondeur, Réseau Neuronal Convolutif, Généralisation,Régularisation, Techniques de régularisation dépendantes et indépendantes des données, Robustesse aux attaques adverses. / Large capacity deep learning models are often prone to a high generalization gap when trained with a limited amount of labeled training data. And, in this case, very deep and wide networks have a tendency to memorize the samples, and therefore they might be vulnerable under a slight distribution shift at testing time. This problem yields poor generalization for data outside of the training data distribution. To overcome this issue some data-dependent and data-independent methods have been proposed. A recent class of successful methods to address this problem uses various ways to construct a new training sample by mixing a pair (or more) of training samples. In this thesis, we introduce PatchUp, a feature-space block-level data-dependent regularization that operates in the hidden space by masking out contiguous blocks of the feature map of a random pair of samples, and then either mixes (Soft PatchUp) or swaps (Hard PatchUp) these selected contiguous blocks. Our regularization method does not incur significant computational overhead for CNNs during training. Our approach improves the robustness of CNN models against the manifold intrusion problem that may occur in other state-of-the-art mixing approaches like Mixup and CutMix. Moreover, since we are mixing the contiguous block of features in the hidden space, which has more dimensions than the input space, we obtain more diverse samples for training towards different dimensions. Our experiments on CIFAR-10, CIFAR-100, SVHN, and Tiny-ImageNet datasets using ResNet architectures including PreActResnet18, PreActResnet34, WideResnet-28-10, ResNet101, and ResNet152 models show that PatchUp improves upon, or equals, the performance of current state-of-the-art regularizers for CNNs. We also show that PatchUp can provide a better generalization to affine transformations of samples and is more robust against adversarial attacks. PatchUp also helps a CNN model to produce a wider variety of features in the residual blocks compared to other state-of-the-art regularization methods for CNNs such as Mixup, Cutout, CutMix, ManifoldMixup, and Puzzle Mix. Key words: Deep Learning, Convolutional Neural Network, Generalization, Regular-ization, Data-dependent and Data-independent Regularization Techniques, Robustness to Adversarial Attacks. Deep learning Convolutional Neural Network (CNN) Generalization Regularization Robustness to Adversarial Attacks Apprentissage en profondeur Réseau Neuronal Convolutif Généralisation Régularisation Robustesse aux attaques adverses
5	Cartographier l’envahisseur : télédétection précoce du roseau commun (Phragmites australis) à l’aide des drones et de l’intelligence artificielle Caron-Guay, Antoine 04 1900 (has links) Combiner les drones et l’intelligence artificielle afin de cartographier la végétation représente une nouvelle approche prometteuse susceptible d’améliorer la détection des espèces végétales exotiques envahissantes (EVEE). La résolution au sol élevée atteignable avec les drones et les innovations récentes en vision par ordinateur, notamment avec les réseaux neuronaux convolutifs, laissent penser qu'une détection précoce des EVEE serait possible, favorisant ainsi leur gestion. Dans cette étude, nous avons évalué la pertinence de cette approche pour cartographier l’emplacement du roseau commun (Phragmites australis subsp. australis) à l’intérieur d'un parc national situé dans le sud du Québec, Canada. Nous avons collecté des données à six dates distinctes durant la saison de croissance, couvrant des environnements présentant différents niveaux d'envahissement par le roseau. De façon générale, la performance du modèle était élevée pour les différentes dates et zones, surtout au niveau du rappel (moyenne globale de 0.89). Les résultats ont montré une augmentation de la performance pour atteindre un sommet à la suite de l’apparition de l’inflorescence en septembre (F1-score le plus haut à 0.98). De plus, une diminution de la résolution spatiale affectait négativement le rappel (diminution de 18% entre une résolution au sol de 0,15 cm pixel-1 et 1,50 cm pixel-1), mais n’avait pas un impact important sur la précision (diminution de 2%). Malgré des défis associés à la cartographie du roseau commun dans un contexte de gestion post-traitement, l'utilisation de drones et de l'apprentissage profond montre un grand potentiel pour la détection des EVEE lorsque appuyé par un jeu de données adapté. Nos résultats montrent que, d'un point de vue opérationnel, cette approche pourrait être un outil efficace pour accélérer le travail des biologistes sur le terrain et assurer une meilleure gestion des EVEE. / The combination of unoccupied aerial vehicles (UAVs) and artificial intelligence to map vegetation represents a promising new approach to improve the detection of invasive alien plant species (IAPS). The high spatial resolution achievable with UAVs and recent innovations in computer vision, especially with convolutional neural networks, suggest that early detection of IAPS could be possible, thus facilitating their management. In this study, we evaluated the suitability of this approach for mapping the location of common reed (Phragmites australis subsp. australis) within a national park located in southern Quebec, Canada. We collected data on six distinct dates during the growing season, covering environments with different levels of reed invasion. Overall, model performance was high for the different dates and zones, especially for recall (mean of 0.89). The results showed an increase in performance, reaching a peak following the appearance of the inflorescence in September (highest F1-score at 0.98). Furthermore, a decrease in spatial resolution negatively affected recall (18% decrease between a spatial resolution of 0.15 cm pixel-1 and 1.50 cm pixel-1) but did not have a strong impact on precision (2% decrease). Despite challenges associated with common reed mapping in a post-treatment monitoring context, the use of UAVs and deep learning shows great potential for IAPS detection when supported by a suitable dataset. Our results show that, from an operational point of view, this approach could be an effective tool for speeding up the work of biologists in the field and ensuring better management of IAPS. Apprentissage profond Drones Espèce végétale exotique envahissante Intelligence artificielle Phragmite Réseau neuronal convolutif Roseau commun Télédétection Vision par ordinateur Artificial intelligence Computer vision Convolutional neural network Deep learning Common reed Invasive alien plant species Phragmites Remote sensing Unoccupied aerial vehicles

1

Page generated in 0.0647 seconds