• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 146
  • 28
  • 18
  • Tagged with
  • 214
  • 214
  • 187
  • 185
  • 121
  • 97
  • 95
  • 95
  • 83
  • 79
  • 79
  • 75
  • 75
  • 74
  • 72
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
161

Autoencoders for natural language semantics

Bosc, Tom 09 1900 (has links)
Les auto-encodeurs sont des réseaux de neurones artificiels qui apprennent des représentations. Dans un auto-encodeur, l’encodeur transforme une entrée en une représentation, et le décodeur essaie de prédire l’entrée à partir de la représentation. Cette thèse compile trois applications de ces modèles au traitement automatique des langues : pour l’apprentissage de représentations de mots et de phrases, ainsi que pour mieux comprendre la compositionnalité. Dans le premier article, nous montrons que nous pouvons auto-encoder des définitions de dictionnaire et ainsi apprendre des vecteurs de définition. Nous proposons une nouvelle pénalité qui nous permet d’utiliser ces vecteurs comme entrées à l’encodeur lui-même, mais aussi de les mélanger des vecteurs distributionnels pré-entraînés. Ces vecteurs de définition capturent mieux la similarité sémantique que les méthodes distributionnelles telles que word2vec. De plus, l’encodeur généralise à un certain degré à des définitions qu’il n’a pas vues pendant l’entraînement. Dans le deuxième article, nous analysons les représentations apprises par les auto-encodeurs variationnels séquence-à-séquence. Nous constatons que les encodeurs ont tendance à mémo- riser les premiers mots et la longueur de la phrase d’entrée. Cela limite considérablement leur utilité en tant que modèles génératifs contrôlables. Nous analysons aussi des variantes architecturales plus simples qui ne tiennent pas compte de l’ordre des mots, ainsi que des mé- thodes basées sur le pré-entraînement. Les représentations qu’elles apprennent ont tendance à encoder plus nettement des caractéristiques globales telles que le sujet et le sentiment, et cela se voit dans les reconstructions qu’ils produisent. Dans le troisième article, nous utilisons des simulations d’émergence du langage pour étudier la compositionnalité. Un locuteur – l’encodeur – observe une entrée et produit un message. Un auditeur – le décodeur – tente de reconstituer ce dont le locuteur a parlé dans son message. Nous émettons l’hypothèse que faire des phrases impliquant plusieurs entités, telles que « Jean aime Marie », nécessite fondamentalement de percevoir chaque entité comme un tout. Nous dotons certains agents de cette capacité grâce à un mechanisme d’attention, alors que d’autres en sont privés. Nous proposons différentes métriques qui mesurent à quel point les langues des agents sont naturelles en termes de structure d’argument, et si elles sont davantage analytiques ou synthétiques. Les agents percevant les entités comme des touts échangent des messages plus naturels que les autres agents. / Autoencoders are artificial neural networks that learn representations. In an autoencoder, the encoder transforms an input into a representation, and the decoder tries to recover the input from the representation. This thesis compiles three different applications of these models to natural language processing: for learning word and sentence representations, as well as to better understand compositionality. In the first paper, we show that we can autoencode dictionary definitions to learn word vectors, called definition embeddings. We propose a new penalty that allows us to use these definition embeddings as inputs to the encoder itself, but also to blend them with pretrained distributional vectors. The definition embeddings capture semantic similarity better than distributional methods such as word2vec. Moreover, the encoder somewhat generalizes to definitions unseen during training. In the second paper, we analyze the representations learned by sequence-to-sequence variational autoencoders. We find that the encoders tend to memorize the first few words and the length of the input sentence. This limits drastically their usefulness as controllable generative models. We also analyze simpler architectural variants that are agnostic to word order, as well as pretraining-based methods. The representations that they learn tend to encode global features such as topic and sentiment more markedly, and this shows in the reconstructions they produce. In the third paper, we use language emergence simulations to study compositionality. A speaker – the encoder – observes an input and produces a message about it. A listener – the decoder – tries to reconstruct what the speaker talked about in its message. We hypothesize that producing sentences involving several entities, such as “John loves Mary”, fundamentally requires to perceive each entity, John and Mary, as distinct wholes. We endow some agents with this ability via an attention mechanism, and deprive others of it. We propose various metrics to measure whether the languages are natural in terms of their argument structure, and whether the languages are more analytic or synthetic. Agents perceiving entities as distinct wholes exchange more natural messages than other agents.
162

Syntactic inductive biases for deep learning methods

Shen, Yikang 08 1900 (has links)
Le débat entre connexionnisme et symbolisme est l'une des forces majeures qui animent le développement de l'Intelligence Artificielle. L'apprentissage profond et la linguistique théorique sont les domaines d'études les plus représentatifs pour les deux écoles respectivement. Alors que la méthode d'apprentissage profond a fait des percées impressionnantes et est devenue la principale raison de la récente prospérité de l'IA pour l'industrie et les universités, la linguistique et le symbolisme occupent quelque domaines importantes, notamment l'interprétabilité et la fiabilité. Dans cette thèse, nous essayons de construire une connexion entre les deux écoles en introduisant des biais inductifs linguistiques pour les modèles d'apprentissage profond. Nous proposons deux familles de biais inductifs, une pour la structure de circonscription et une autre pour la structure de dépendance. Le biais inductif de circonscription encourage les modèles d'apprentissage profond à utiliser différentes unités (ou neurones) pour traiter séparément les informations à long terme et à court terme. Cette séparation fournit un moyen pour les modèles d'apprentissage profond de construire les représentations hiérarchiques latentes à partir d'entrées séquentielles, dont une représentation de niveau supérieur est composée et peut être décomposée en une série de représentations de niveau inférieur. Par exemple, sans connaître la structure de vérité fondamentale, notre modèle proposé apprend à traiter l'expression logique en composant des représentations de variables et d'opérateurs en représentations d'expressions selon sa structure syntaxique. D'autre part, le biais inductif de dépendance encourage les modèles à trouver les relations latentes entre les mots dans la séquence d'entrée. Pour le langage naturel, les relations latentes sont généralement modélisées sous la forme d'un graphe de dépendance orienté, où un mot a exactement un nœud parent et zéro ou plusieurs nœuds enfants. Après avoir appliqué cette contrainte à un modèle de type transformateur, nous constatons que le modèle est capable d'induire des graphes orientés proches des annotations d'experts humains, et qu'il surpasse également le modèle de transformateur standard sur différentes tâches. Nous pensons que ces résultats expérimentaux démontrent une alternative intéressante pour le développement futur de modèles d'apprentissage profond. / The debate between connectionism and symbolism is one of the major forces that drive the development of Artificial Intelligence. Deep Learning and theoretical linguistics are the most representative fields of study for the two schools respectively. While the deep learning method has made impressive breakthroughs and became the major reason behind the recent AI prosperity for industry and academia, linguistics and symbolism still holding some important grounds including reasoning, interpretability and reliability. In this thesis, we try to build a connection between the two schools by introducing syntactic inductive biases for deep learning models. We propose two families of inductive biases, one for constituency structure and another one for dependency structure. The constituency inductive bias encourages deep learning models to use different units (or neurons) to separately process long-term and short-term information. This separation provides a way for deep learning models to build the latent hierarchical representations from sequential inputs, that a higher-level representation is composed of and can be decomposed into a series of lower-level representations. For example, without knowing the ground-truth structure, our proposed model learns to process logical expression through composing representations of variables and operators into representations of expressions according to its syntactic structure. On the other hand, the dependency inductive bias encourages models to find the latent relations between entities in the input sequence. For natural language, the latent relations are usually modeled as a directed dependency graph, where a word has exactly one parent node and zero or several children nodes. After applying this constraint to a transformer-like model, we find the model is capable of inducing directed graphs that are close to human expert annotations, and it also outperforms the standard transformer model on different tasks. We believe that these experimental results demonstrate an interesting alternative for the future development of deep learning models.
163

Intelligence artificielle et droit d’auteur : le dilemme canadien

Jonnaert, Caroline 03 1900 (has links)
En 2016, un « nouveau Rembrandt » a été créé par intelligence artificielle dans le cadre du projet The Next Rembrandt. Grâce à la méthode d’apprentissage profond, un ordinateur a en effet permis la réalisation d’un tableau qui, selon les experts, aurait pu être créé par le maître hollandais. Ainsi, une création artistique a été conçue avec un programme d’intelligence artificielle, « en collaboration » avec des humains. Depuis, de nouvelles créations algorithmiques ont vu le jour, en minimisant chaque fois davantage l’empreinte créatrice humaine. Mais comment le droit d’auteur canadien encadre-t-il ou, le cas échéant, pourrait-il encadrer ce type de créations ? Voici la question générale à laquelle notre projet de recherche souhaite répondre. En dépit des récentes avancées technologiques et d’un certain abus de langage, l’intelligence artificielle n’est pas (encore) entièrement autonome (Chapitre liminaire). Il en résulte qu’un humain crée les dessous de l’œuvre, c’est-à-dire les règles dans le cadre duquel les créations sont produites. À l’heure actuelle, les créations « artificielles » sont donc issues d’un processus où l’algorithme agit comme simple outil. Partant, les principes classiques de droit d’auteur doivent s’appliquer à ces créations assistées par intelligence artificielle (Chapitre premier). En l’espèce, les critères d’originalité et d’autorat constituent les principaux obstacles à la protection de (certaines) créations algorithmiques. En outre, le processus collaboratif de création ne permet pas d’identifier systématiquement des co-auteurs faisant preuve « de talent et de jugement » (Chapitre deux). Dans ce contexte singulier, des juristes étrangers ont proposé des « solutions », afin de protéger les créations produites « artificiellement » par leurs régimes de droit d’auteur respectifs (Chapitre trois). La réception des propositions étrangères en sol canadien n’est toutefois pas souhaitable, car elle risque de fragiliser la cohérence interne de la Loi, ainsi que les fondements du régime. Dès lors, ces solutions ne permettent pas de résoudre la « problématique » des créations algorithmiques. Quelle devrait donc être la réponse canadienne ? Il s’agit de la question à laquelle nous répondons au Chapitre quatre. Afin de respecter l’intégrité du régime de droit d’auteur canadien, nous concluons que seules les créations répondant aux critères de la législation canadienne sur le droit d’auteur doivent être protégées. Les productions ne parvenant pas à respecter l’une ou l’autre des conditions de protection tomberaient, pour leur part, dans le domaine public. En dépit de ce constat, nous croyons que la constitution d’un régime sui generis, propre aux créations algorithmiques, pourrait être appropriée. Il appartiendra cependant au gouvernement canadien de décider si l’édification d’un tel régime est pertinente. Pour ce faire, il sera nécessaire d’obtenir des données probantes de la part des différentes parties prenantes. Il s’agit-là du dilemme auquel le Canada fait face. / In 2016, a « new Rembrandt » was created with artificial intelligence as part of The Next Rembrandt project. Thanks to the deep learning method, a computer has indeed made it possible to make a painting that, according to experts, could have been created by the Dutch Master. Thus, an artistic creation was designed with an artificial intelligence program, « in collaboration » with humans. Since then, new algorithmic creations have emerged, each time further minimizing the human creative footprint. But how does or could the Canadian copyright regime protect this type of creation ? This is the general question that our research project wishes to answer. Despite recent technological advances and a certain abuse of language, artificial intelligence is not (yet) autonomous (Preliminary Chapter). As a result, a human creates the underside of the work, that is, the rules within which the creations are produced. At present, « artificial » creations are therefore the result of a process where the algorithm acts as a simple tool. Therefore, the classical principles of copyright should apply to such creations produced with computer assistance (Chapter One). In the present case, the conditions of originality and authorship constitute the main obstacles to the protection of (certain) algorithmic creations. In addition, the collaborative creative process does not systematically allow the identification of coauthors (Chapter Two). In this singular context, foreign authors have proposed solutions to protect these creations by their respective copyright regimes (Chapter Three). However, the adoption of these proposals in Canada is not desirable, as it may weaken the internal scheme of the Canadian copyright regime, as well as its foundations. As such, these solutions do not solve the « problem » of algorithmic 5 creations. What should be the Canadian response ? This is the question we answer in Chapter Four. In order to protect the integrity of the Canadian copyright regime, we conclude that only creations that meet the criteria of the Copyright Act should be protected. Productions that fail to comply with any of these conditions should fall into the public domain. Despite this observation, we believe that the constitution of a sui generis regime specific to algorithmic creations could be appropriate. Yet, it will be up to the Canadian government to decide whether the creation of such a regime is pertinent. This will require gathering evidence from different stakeholders. This is the dilemma that Canada is facing.
164

Investigating intra and inter-subject performance with deep learning for gait on irregular surfaces

Lam, Guillaume 04 1900 (has links)
La médecine personnalisée promet des soins adaptés à chaque patient. Cependant, l’ap- prentissage automatique appliqué à cette fin nécessite beaucoup d’améliorations. L’évalua- tion des modèles est une étape cruciale qui nécessite du travail pour amener à un niveau acceptable pour son utilisation avec des participants. Actuellement, les performances sur les ensembles de données biomédicales sont évaluées à l’aide d’un découpage intra-sujet ou inter-sujet. Le premier se concentre sur l’évaluation des participants présents à la fois dans les ensembles d’entraînement et de test. Ce dernier sépare les participants pour chaque ensemble. Ces termes sont respectivement synonymes de fractionnement aléatoire et par sujet. Deux méthodes principales se présentent comme des solutions pour obtenir des performances de franctionnement aléatoires lors d’entraînement de méthodes par sujet, calibration et sans ca- libration. Alors que la calibration se concentre sur l’entraînement d’un petit sous-ensemble de participant non vues, les méthodes sans calibration visent à modifier l’architecture du modèle ou les traitements préliminaire pour contourner la nécessité du sous-ensemble. Ce mémoire étudiera la calibration non paramétrique pour ses propriétés d’indépendance de la modalité. L’article présenté détaillera cette enquête pour combler l’écart de performance sur un ensemble de données d’essais de marche sur des surfaces irrégulières. Nous détermi- nons que quelques cycles (1-2) de marche sont suffisants pour calibrer les modèles pour des performances adéquates (F1 : +90%). Avec accès à des essais de cycle de marche supplémen- taires (+10), le modèle a atteint à peu près les mêmes performances qu’un modèle formé à l’aide d’une approche de fractionnement aléatoire (F1 : 95-100%). Suivant les objectifs de la médecine personnalisée, des voies de recherche supplémentaires sont décrites, telles qu’une méthode alternative de distribution de modèles qui s’adapte aux étapes de recherche tout en réduisant les coûts de calcul pour les développeurs de modèles. Nous constatons que l’étalonnage est une méthode valable pour surmonter l’écart de performance. Les ré- sultats correspondent aux découvertes précédentes utilisant l’étalonnage pour obtenir des performances robustes. / Personalized medicine promises care tailored to each patient; however, machine learning applied to this end needs much improvement. Evaluation of models is a crucial step which necessitates attention when utilized with participants. Currently, performance on biomedical datasets is evaluated using either intra-subject or inter-subject splitting. The former focuses on the evaluation of participants present in both training and testing sets. The latter separates participants for each set. These terms are synonymous with random-wise and subject-wise splitting, respectively. Two main methods present themselves as solutions to achieving random-wise performance while training on a subject-wise dataset split, calibration and calibration-free methods. While calibration focuses on training a small subset of unseen data trials, calibration-free methods aim to alter model architecture or pre-processing steps to bypass the necessity of training data points. This thesis investigates non-parametric calibration for its modality-agnostic properties. The article presented details this investigation at bridging the performance gap on a dataset of gait trials on irregular surfaces. We determine few (1-2) gait cycles are sufficient to calibrate models for adequate performance (F1:+90%). With access to additional gait cycle trials, the model achieved nearly the same performance as a model trained using a random-split approach (F1:95-100%). Following the goals of personalized medicine, additional research paths are outlined, such as an alternative model distribution method which fits with research steps while reducing computational costs for model developers. We find that calibration is a valid method to overcome the performance gap. The presented results correspond with previous findings by using calibration to achieve robust performance.
165

Évaluer le potentiel et les défis de la variation intraspécifique pour les réseaux neuronaux profonds de reconnaissance de chants d’oiseaux : l’exemple des bruants des prés (Passerculus sandwichensis) de l’île Kent, Nouveau-Brunswick

Rondeau Saint-Jean, Camille 08 1900 (has links)
Les réseaux neuronaux profonds sont des outils prometteurs pour l'évaluation de la biodiversité aviaire, en particulier pour la détection des chants et la classification acoustique des espèces. Toutefois, on connaît mal l’étendue de leur capacité de généralisation face à la variation intraspécifique présente dans les chants d’oiseaux, ce qui pourrait mener à des biais. Notre étude porte sur l'évaluation des performances de BirdNET, un réseau neuronal profond, pour le traitement d’un corpus d'enregistrements audio caractérisés par une variation intraspécifique significative, en utilisant l’exemple du chant du bruant des prés (Passerculus sandwichensis). Dans la population de l'île de Kent, au Nouveau-Brunswick, les individus sont suivis et enregistrés grâce à leurs bagues de couleur et la présence de microdialectes est solidement documentée. Nous avons recueilli et annoté 69 606 chants provenant de 52 individus et analysé ces données à l'aide d’une version récente de BirdNET. Nos résultats révèlent que BirdNET démontre une précision globale suffisante, prédisant correctement 81,9 % des chants, ce qui dépasse les résultats rapportés par ses développeurs. Toutefois, nous avons observé une variation considérable dans les scores de confiance et les taux de prédiction exactes entre les individus, ce qui suggère des biais potentiels. Cependant, nos recherches n'ont pas mis en évidence de variation entre les résultats des différents microdialectes, ce qui souligne la relative robustesse de l'algorithme. Nous avançons que la variation observée entre les individus est due au fait que certains d’entre eux chantent systématiquement plus près des microphones, résultant en des chants plus clairs donc plus faciles à identifier. Pour mieux comprendre le processus de prise de décision de BirdNET, nous avons tenté de produire des cartes d'activation de classe, qui constituent un outil précieux pour identifier les éléments d’un chant qui déterminent une prédiction. Cependant, il ne nous a pas été possible d’obtenir des cartes d’activation de classe d’après la version actuellement disponible du code de BirdNET sans avoir recours à des connaissances avancées en informatique. L'accès à des outils explicatifs adaptés aux innovations récentes dans les architectures de réseaux neuronaux 4 profonds serait crucial pour mieux interpréter les résultats et renforcer la confiance des utilisateurs. Nos résultats soulignent la nécessité de poursuivre les recherches sur la capacité de généralisation des réseaux neuronaux profonds pour la bioacoustique en utilisant des ensembles de données monospécifiques portant sur de plus longues périodes ou des aires de répartition géographique plus vastes. En outre, l'extension de cette étude à des espèces ayant des répertoires plus importants ou des différences plus subtiles entre le chant des individus pourrait nous informer davantage sur les limites et le potentiel des algorithmes d'apprentissage profond pour la détection et la classification acoustiques des espèces. En conclusion, notre étude démontre les performances prometteuses de BirdNET pour le traitement d'un large corpus de chants de bruants des prés, et confirme son potentiel en tant qu'outil précieux pour l'évaluation de la biodiversité aviaire. Les biais dus aux techniques d’enregistrement et la variation dans les taux de succès observés entre les individus méritent d'être étudiés plus en détail. / Machine learning, particularly deep neural networks, has gained prominence as a valuable tool in ecological studies and wildlife conservation planning. In the field of avian biodiversity assessment, deep neural networks have shown remarkable promise, particularly in acoustic species detection and classification. Despite their success, a critical knowledge gap exists concerning the generalization ability of these algorithms across intraspecific variation in bird song. This raises concerns about potential biases and misinterpretation of results. This study focuses on evaluating the performance of BirdNET, a deep neural network, in processing audio recordings characterized by significant intraspecific variation in the Savannah Sparrow (Passerculus sandwichensis) song. Savannah Sparrows are an ideal candidate for this investigation, given their well-studied population on Kent Island, New Brunswick, Canada. Each male sings a unique, unchanging song throughout its life, and the population exhibits well-documented geographical microdialects. We collected a large corpus of Savannah Sparrow songs using autonomous and focal recorders on Kent Island, yielding a total of 69,606 manually annotated songs from 52 different sparrows. We analyzed the audio data using BirdNET-Analyzer. The resulting confidence scores were used to assess the algorithm's performance across microdialects and individual birds. Our results revealed that BirdNET exhibited considerable overall accuracy, correctly predicting 81.9% of the songs, which surpassed the results reported by the developers of BirdNET. We observed variations in BirdNET's confidence scores among individual birds, suggesting potential biases in its classifications. However, our investigation indicated no evidence of distinct biases towards specific microdialects, highlighting the algorithm's relative robustness across these groups. We suspect that the variation observed amongst individuals is caused by the fact that some were singing consistently closer to microphones, yielding clearer songs. To gain insights into BirdNET's decision-making process, we sought to employ class activation maps, a valuable tool for identifying essential song elements contributing to species predictions. However, we were unable to produce class activation maps from the current version of BirdNET 6 without advanced computer science skills. Access to informative tools adapted to recent innovations in deep neural network architectures for bioacoustic applications is crucial for understanding and interpreting results better. Such tools would enhance user confidence and favour accountability for conservation decisions based on these predictions. Our findings underscore the need for further research investigating the generalization capacity of deep neural networks in bioacoustics on single-species datasets with more extensive intraspecific variation and broader geographical ranges. Additionally, expanding this investigation to species with larger song repertoires or more subtle inter-individual song differences could provide valuable insights into the limits and potential of deep learning algorithms for acoustic species detection and classification. In conclusion, our study demonstrates BirdNET's promising performance in processing a large corpus of Savannah Sparrow songs, highlighting its potential as a valuable tool for avian biodiversity assessment. Biases and variations in confidence scores observed across individual birds warrant further investigation.
166

Optimizing endoscopic strategies for colorectal cancer screening : improving colonoscopy effectiveness by optical, non-optical, and computer-based models

Taghiakbari, Mahsa 12 1900 (has links)
Introduction: Le cancer colorectal demeure un grave problème de santé publique au Canada. Les programmes de dépistage pourraient réduire l'incidence du cancer colorectal et la mortalité qui lui est associée. Une coloscopie de haute qualité est considérée comme un moyen rentable de prévenir le cancer en identifiant et en éliminant les lésions précurseurs du cancer. Bien que la coloscopie puisse servir de mesure préventive contre le cancer, la procédure peut imposer un fardeau supplémentaire à la santé publique par l'enlèvement et l'évaluation histologique de polypes colorectaux diminutifs et insignifiants, qui présentent un risque minime d'histologie avancée ou de cancer. La technologie de l'amélioration de l'image permettrait aux médecins de réséquer et de rejeter les polypes diminutifs ou de diagnostiquer et de laisser les polypes rectosigmoïdiens diminutifs sans examen histopathologique. Malgré la disponibilité de systèmes informatiques de caractérisation des polypes, la pratique du diagnostic optique reste limitée en raison de la crainte d'un mauvais diagnostic de cancer, d'une mauvaise surveillance des patients et des problèmes médico-légaux correspondants. Il est donc indispensable d'élaborer des stratégies alternatives de résection et d'élimination non optiques pour améliorer la précision et la sécurité du diagnostic optique et l'adapter à la pratique clinique. Ces stratégies doivent répondre à des critères cliniques simples et ne nécessitent pas de formation supplémentaire ni de dispositifs d'amélioration de l'image. De plus, la pratique sûre du diagnostic optique, la prise de décision appropriée concernant la technique de polypectomie ou l'intervalle de surveillance dépendent de l'estimation précise de la taille des polypes. La variabilité inter-endoscopistes dans la mesure de la taille des polypes exige le développement de méthodes fiables et validées pour augmenter la précision de la mesure de la taille. Une balance virtuelle intégrée à un endoscope haute définition est actuellement disponible pour le calcul automatique de la taille des polypes, mais sa faisabilité clinique n'a pas encore été établie. En dehors des points susmentionnés, une coloscopie de haute qualité nécessite l'examen complet de la muqueuse colique, ainsi que la visualisation de la valve iléocæcale et de l'orifice appendiculaire. À ce jour, aucune solution informatique n'a été capable d'assister les endoscopistes pendant les coloscopies en temps réel en détectant et en différenciant les points de repère cæcaux de façon automatique. Objectifs: Les objectifs de cette thèse sont : 1) d'étudier l'effet de la limitation du diagnostic optique aux polypes de 1 à 3 mm sur la sécurité du diagnostic optique pour le traitement des polypes diminutifs et l'acceptation par les endoscopistes de son utilisation dans les pratiques en temps réel tout en préservant ses potentiels de temps et de rentabilité ; 2) élaborer et examiner des stratégies non optiques de résection et d'élimination qui peuvent remplacer le diagnostic optique tout en offrant les mêmes possibilités d'économie de temps et d'argent ; 3) examiner la précision relative d'un endoscope à échelle virtuelle pour mesurer la taille des polypes ; 4) former, valider et tester un modèle d'intelligence artificielle qui peut prédire la complétude d'une procédure de coloscopie en identifiant les points de repère anatomiques du cæcum (c'est-à-dire la valve iléo-cæcale et l'orifice appendiculaire) et en les différenciant les uns des autres, des polypes et de la muqueuse normale. Méthodes: Pour atteindre le premier objectif de cette thèse, une analyse post-hoc de trois études prospectives a été réalisée pour évaluer la proportion de patients chez lesquels des adénomes avancés ont été découverts et le diagnostic optique a entraîné une surveillance retardée dans trois groupes de taille de polypes : 1–3, 1–5, et 1–10 mm. Pour atteindre le second objectif de cette thèse, deux stratégies non optiques ont été développées et testées dans deux études prospectives: une stratégie de résection et d'élimination basée sur la localisation qui utilise la localisation anatomique des polypes pour classer les polypes du côlon en non-néoplasiques ou néoplasiques à faible risque et une stratégie de résection et d'élimination basée sur les polypes qui attribue des intervalles de surveillance en fonction du nombre et de la taille des polypes. Dans les trois études, la concordance de l'attribution d'intervalles de surveillance basée sur un diagnostic optique à haute confiance ou sur des stratégies non optiques avec les recommandations basées sur la pathologie, ainsi que la proportion d'examens pathologiques évités et la proportion de communications immédiates d'intervalles de surveillance, ont été évaluées. Le troisième objectif de cette thèse a été abordé par le biais d'une étude de faisabilité pilote prospective qui a utilisé la mesure de spécimens de polypes immédiatement après leur prélèvement, suite à une polypectomie par un pied à coulisse Vernier comme référence pour comparer la précision relative des mesures de la taille des polypes entre les endoscopistes et un endoscope à échelle virtuelle. Enfin, le quatrième objectif de cette thèse a été évalué par l'enregistrement et l'annotation prospective de vidéos de coloscopie. Des images non modifiées de polype, de valve iléo-caecale, d'orifice appendiculaire et de muqueuse normale ont été extraites et utilisées pour développer et tester un modèle de réseau neuronal convolutionnel profond pour classer les images pour les points de repère qu'elles contiennent. Résultats: La réduction du seuil du diagnostic optique favoriserait la sécurité du diagnostic optique en diminuant de manière significative le risque d'écarter un polype avec une histologie avancée ou la mauvaise surveillance d'un patient avec de tels polypes. En outre, les stratégies non optiques de résection et d'élimination pourraient dépasser le critère de référence d'au moins 90% de concordance dans l'attribution des intervalles de surveillance post-polypectomie par rapport aux décisions basées sur l'évaluation pathologique. De plus, il a été démontré que l'endoscope à échelle virtuelle est plus précis que l'estimation visuelle de la taille des polypes en temps réel. Enfin, un modèle d'apprentissage profond s'est révélé très efficace pour détecter les repères cæcaux, les polypes et la muqueuse normale, à la fois individuellement et en combinaison. Discussion: La prédiction histologique optique des polypes de 1 à 3 mm est une approche efficace pour améliorer la sécurité et la faisabilité de la stratégie de résection et d'écartement dans la pratique. Les approches non optiques de résection et d'élimination offrent également des alternatives viables au diagnostic optique lorsque les endoscopistes ne sont pas en mesure de répondre aux conditions de mise en œuvre systématique du diagnostic optique, ou lorsque la technologie d'amélioration de l'image n'est pas accessible. Les stratégies de résection et de rejet, qu'elles soient optiques ou non, pourraient réduire les coûts supplémentaires liés aux examens histopathologiques et faciliter la communication du prochain intervalle de surveillance le même jour que la coloscopie de référence. Un endoscope virtuel à échelle réduite faciliterait l'utilisation du diagnostic optique pour la détection des polypes diminutifs et permet une prise de décision appropriée pendant et après la coloscopie. Enfin, le modèle d'apprentissage profond peut être utile pour promouvoir et contrôler la qualité des coloscopies par la prédiction d'une coloscopie complète. Cette technologie peut être intégrée dans le cadre d'une plateforme de vérification et de génération de rapports qui élimine le besoin d'intervention humaine. Conclusion: Les résultats présentés dans cette thèse contribueront à l'état actuel des connaissances dans la pratique de la coloscopie concernant les stratégies pour améliorer l'efficacité de la coloscopie dans la prévention du cancer colorectal. Cette étude fournira des indications précieuses pour les futurs chercheurs intéressés par le développement de méthodes efficaces de traitement des polypes colorectaux diminutifs. Le diagnostic optique nécessite une formation complémentaire et une mise en œuvre à l'aide de modules de caractérisation informatisés. En outre, malgré la lenteur de l'adoption des solutions informatiques dans la pratique clinique, la coloscopie assistée par l'IA ouvrira la voie à la détection automatique, à la caractérisation et à la rédaction semi-automatique des rapports de procédure. / Introduction: Colorectal cancer remains a critical public health concern in Canada. Screening programs could reduce the incidence of colorectal cancer and its associated mortality. A high-quality colonoscopy is appraised to be a cost-effective means of cancer prevention through identifying and removing cancer precursor lesions. Although colonoscopy can serve as a preventative measure against cancer, the procedure can impose an additional burden on the public health by removing and histologically evaluating insignificant diminutive colorectal polyps, which pose a minimal risk of advanced histology or cancer. The image-enhance technology would enable physicians to resect and discard diminutive polyps or diagnose and leave diminutive rectosigmoid polyps without histopathology examination. Despite the availability of computer-based polyp characterization systems, the practice of optical diagnosis remains limited due to the fear of cancer misdiagnosis, patient mismanagement, and the related medicolegal issues. Thus, alternative non-optical resection and discard strategies are imperative for improving the accuracy and safety of optical diagnosis for adaptation to clinical practice. These strategies should follow simple clinical criteria and do not require additional education or image enhanced devices. Furthermore, the safe practice of optical diagnosis, adequate decision-making regarding polypectomy technique, or surveillance interval depends on accurate polyp size estimation. The inter-endoscopist variability in polyp sizing necessitates the development of reliable and validated methods to enhance the accuracy of size measurement. A virtual scale integrated into a high-definition endoscope is currently available for automated polyp sizing, but its clinical feasibility has not yet been demonstrated. In addition to the points mentioned above, a high-quality colonoscopy requires the complete examination of the entire colonic mucosa, as well as the visualization of the ileocecal valve and appendiceal orifice. To date, no computer-based solution has been able to support endoscopists during live colonoscopies by automatically detecting and differentiating cecal landmarks. Aims: The aims of this thesis are: 1) to investigate the effect of limiting optical diagnosis to polyps 1–3mm on the safety of optical diagnosis for the management of diminutive polyps and the acceptance of endoscopists for its use in real-time practices while preserving its time- and cost-effectiveness potentials; 2) to develop and examine non-optical resect and discard strategies that can replace optical diagnosis while offering the same time- and cost-saving potentials; 3) to examine the relative accuracy of a virtual scale endoscope for measuring polyp size; 4) to train, validate, and test an artificial intelligence-empower model that can predict the completeness of a colonoscopy procedure by identifying cecal anatomical landmarks (i.e., ileocecal valve and appendiceal orifice) and differentiating them from one another, polyps, and normal mucosa. Methods: To achieve the first aim of this thesis, a post-hoc analysis of three prospective studies was performed to evaluate the proportion of patients in which advanced adenomas were found and optical diagnosis resulted in delayed surveillance in three polyp size groups: 1‒3, 1‒5, and 1‒10 mm. To achieve the second aim of this thesis, two non-optical strategies were developed and tested in two prospective studies: a location-based resect and discard strategy that uses anatomical polyp location to classify colon polyps into non-neoplastic or low-risk neoplastic and a polyp-based resect and discard strategy that assigns surveillance intervals based on polyp number and size. In all three studies, the agreement of assigning surveillance intervals based on high-confidence optical diagnosis or non-optical strategies with pathology-based recommendations, as well as the proportion of avoided pathology examinations and the proportion of immediate surveillance interval communications, was evaluated. The third aim of this thesis was addressed through a prospective pilot feasibility study that used the measurement of polyp specimens immediately after retrieving, following a polypectomy by a Vernier caliper as a reference to compare the relative accuracy of polyp size measurements between endoscopists and a virtual scale endoscope. Finally, the fourth aim of this thesis was assessed through prospective recording and annotation of colonoscopy videos. Unaltered images of polyp, ileocecal valve, appendiceal orifice and normal mucosa were extracted and used to develop and test a deep convolutional neural network model for classifying images for the containing landmarks. Results: Reducing the threshold of optical diagnosis would promote the safety of optical diagnosis by significantly decreasing the risk of discarding a polyp with advanced histology or the mismanagement of a patient with such polyps. Additionally, the non-optical resect and discard strategies could surpass the benchmark of at least 90% agreement in the assignment of post-polypectomy surveillance intervals compared with decisions based on pathologic assessment. Moreover, the virtual scale endoscope was demonstrated to be more accurate than visual estimation of polyp size in real-time. Finally, a deep learning model proved to be highly effective in detecting cecal landmarks, polyps, and normal mucosa, both individually and in combination. Discussion: Optical histology prediction of polyps 1‒3 mm in size is an effective approach to enhance the safety and feasibility of resect and discard strategy in practice. Non-optical resect and discard approaches also offer feasible alternatives to optical diagnosis when endoscopists are unable to meet the conditions for routine implementation of optical diagnosis, or when image-enhanced technology is not accessible. Both optical and non-optical resect and discard strategies could reduce additional costs related to histopathology examinations and facilitate the communication of the next surveillance interval in the same day as the index colonoscopy. A virtual scale endoscope would facilitate the use of optical diagnosis for the detection of diminutive polyps and allows for appropriate decision-making during and after colonoscopy. Additionally, the deep learning model may be useful in promoting and monitoring the quality of colonoscopies through the prediction of a complete colonoscopy. This technology may be incorporated as part of a platform for auditing and report generation that eliminates the need for human intervention. Conclusion: The results presented in this thesis will contribute to the current state of knowledge in colonoscopy practice regarding strategies for improving the efficacy of colonoscopy in the prevention of colorectal cancer. This study will provide valuable insights for future researchers interested in developing effective methods for treating diminutive colorectal polyps. Optical diagnosis requires further training and implementation using computer-based characterization modules. Furthermore, despite the slow adoption of computer-based solutions in clinical practice, AI-empowered colonoscopy will eventually pave the way for automatic detection, characterization, and semi-automated completion of procedure reports in the future.
167

Influence de la phénologie foliaire automnale de forêts tempérées sur la segmentation d’espèces d’arbres à partir d’imagerie de drone et d’apprentissage profond

Cloutier, Myriam 07 1900 (has links)
La télédétection des forêts est devenue de plus en plus accessible grâce à l'utilisation de véhicules aériens inoccupés (UAV) et à l'apprentissage profond, ce qui permet d'obtenir des images répétées à haute résolution et d’observer les changements phénologiques à des échelles spatiales et temporelles plus importantes. Dans les forêts tempérées, à l'automne, la sénescence des feuilles se produit lorsque les feuilles changent de couleur et tombent. Cependant, l'influence de la sénescence foliaire sur la segmentation des espèces d'arbres à l'aide d'un réseau neuronal convolutif (CNN) n'a pas encore été évaluée. Nous avons acquis de l’imagerie haute résolution par UAV au-dessus d’une forêt tempérée au Québec à sept reprises entre mai et octobre 2021. Nous avons segmenté et identifié 23 000 couronnes d'arbres de 14 classes différentes pour entraîner et valider un CNN pour chaque acquisition d'imagerie. La meilleure segmentation (F1-score le plus élevé) était au début de la coloration des feuilles (début septembre) et le F1-score le plus bas au pic de la coloration automnale (début octobre). La chronologie de la sénescence varie considérablement d’une espèce à l’autre et au sein d’une même espèce, ce qui entraîne une grande variabilité du signal télédétecté. Les espèces d'arbres à feuilles caduques et à feuilles persistantes qui présentaient des traits distinctifs et moins variables dans le temps entre les individus ont été mieux classées. Bien que la segmentation des arbres dans une forêt hétérogène demeure un défi, l'imagerie UAV et l'apprentissage profond démontrent un grand potentiel pour la cartographie des espèces d'arbres. Les résultats obtenus dans une forêt tempérée où la couleur des feuilles change fortement pendant la sénescence automnale montrent que la meilleure performance pour la segmentation des espèces d'arbres se produit au début de ce changement de couleur. / Remote sensing of forests has become increasingly accessible with the use of unoccupied aerial vehicles (UAV), along with deep learning, allowing for repeated high-resolution imagery and the capturing of phenological changes at larger spatial and temporal scales. In temperate forests during autumn, leaf senescence occurs when leaves change colour and drop. However, the influence of leaf senescence in temperate forests on tree species segmentation using a Convolutional Neural Network (CNN) has not yet been evaluated. Here, we acquired high-resolution UAV imagery over a temperate forest in Quebec, Canada on seven occasions between May and October 2021. We segmented and labelled 23,000 tree crowns from 14 different classes to train and validate a CNN for each imagery acquisition. The CNN-based segmentation showed the highest F1-score (0.72) at the start of leaf colouring in early September and the lowest F1-score (0.61) at peak fall colouring in early October. The timing of the events occurring during senescence, such as leaf colouring and leaf fall, varied substantially between and within species and according to environmental conditions, leading to higher variability in the remotely sensed signal. Deciduous and evergreen tree species that presented distinctive and less temporally-variable traits between individuals were better classified. While tree segmentation in a heterogenous forest remains challenging, UAV imagery and deep learning show high potential in mapping tree species. Our results from a temperate forest with strong leaf colour changes during autumn senescence show that the best performance for tree species segmentation occurs at the onset of this colour change.
168

Fast high-dimensional posterior inference with deep generative models : application to CMB delensing

Sotoudeh, Mohammad-Hadi 08 1900 (has links)
Nous vivons à une époque marquée par une abondance de données cosmologiques de haute résolution. Cet afflux de données engendré par les missions d'observation de nouvelle génération au sol et dans l'espace porte le potentiel de remodeler fondamentalement notre compréhension de l'univers et de ses principes physiques sous-jacents. Cependant, la complexité grande des données observées pose des défis aux approches conventionnelles d'analyse de données, soit en raison de coûts de calcul irréalisables, soit en raison des hypothèses simplificatrices utilisées dans ces algorithmes qui deviennent inadéquates dans des contextes haute résolution à faible bruit, conduisant à des résultats sous-optimaux. En réponse, la communauté scientifique s'est tournée vers des méthodes innovantes d'analyse de données, notamment les techniques d'apprentissage automatique (ML). Les modèles de ML, lorsqu'ils sont bien entraînés, peuvent identifier de manière autonome des correlations significatives dans les données de manière plus efficace et sans hypothèses restrictives inutiles. Bien que les méthodes de ML aient montré des promesses en astrophysique, elles présentent également des problèmes tels que le manque d'interprétabilité, les biais cachés et les estimations d'incertitude non calibrées, ce qui, jusqu'a maintenant, a entrave leur application dans d'importantes découvertes scientifiques. Ce projet s'inscrit dans le cadre de la collaboration "Learning the Universe" (LtU), axée sur la reconstruction des conditions initiales de l'univers, en utilisant une approche de modélisation bayésienne et en exploitant la puissance du ML. L'objectif de ce projet est de développer un cadre pour mener une inférence bayésienne au niveau des pixels dans des problèmes multidimensionnels. Dans cette thèse, je présente le développement d'un cadre d'apprentissage profond pour un échantillonnage rapide des postérieurs en dimensions élevées. Ce cadre utilise l'architecture "Hierarchical Probabilistic U-Net", qui combine la puissance de l'architecture U-Net dans l'apprentissage de cartes multidimensionnelles avec le rigoureux cadre d'inférence des autoencodeurs variationnels conditionnels. Notre modèle peut quantifier les incertitudes dans ses données d'entraînement et générer des échantillons à partir de la distribution a posteriori des paramètres, pouvant être utilisés pour dériver des estimations d'incertitude pour les paramètres inférés. L'efficacité de notre cadre est démontrée en l'appliquant au problème de la reconstruction de cartes du fond diffus cosmologique (CMB) pour en retirer de l'effet de lentille gravitationnelle faible. Notre travail constitue un atout essentiel pour effectuer une inférence de vraisemblance implicite en dimensions élevées dans les domaines astrophysiques. Il permet d'exploiter pleinement le potentiel des missions d'observation de nouvelle génération pour améliorer notre compréhension de l'univers et de ses lois physiques fondamentales. / We live in an era marked by an abundance of high-resolution cosmological data. This influx of data brought about by next-generation observational missions on the ground and in space, bears the potential of fundamentally reshaping our understanding of the universe and its underlying physical principles. However, the elevated complexity of the observed data poses challenges to conventional data analysis approaches, either due to infeasible computational costs or the simplifying assumptions used in these algorithms that become inadequate in high-resolution, low-noise contexts, leading to suboptimal results. In response, the scientific community has turned to innovative data analysis methods, including machine learning (ML) techniques. ML models, when well-trained, can autonomously identify meaningful patterns in data more efficiently and without unnecessary restrictive assumptions. Although ML methods have shown promise in astrophysics, they also exhibit issues like lack of interpretability, hidden biases, and uncalibrated uncertainty estimates, which have hindered their application in significant scientific discoveries. This project is defined within the context of the Learning the Universe (LtU) collaboration, focused on reconstructing the initial conditions of the universe, utilizing a Bayesian forward modeling approach and harnessing the power of ML. The goal of this project is to develop a framework for conducting Bayesian inference at the pixel level in high-dimensional problems. In this thesis, I present the development of a deep learning framework for fast high-dimensional posterior sampling. This framework utilizes the Hierarchical Probabilistic U-Net architecture, which combines the power of the U-Net architecture in learning high-dimensional mappings with the rigorous inference framework of Conditional Variational Autoencoders. Our model can quantify uncertainties in its training data and generate samples from the posterior distribution of parameters, which can be used to derive uncertainty estimates for the inferred parameters. The effectiveness of our framework is demonstrated by applying it to the problem of removing the weak gravitational lensing effect from the CMB. Our work stands as an essential asset to performing high-dimensional implicit likelihood inference in astrophysical domains. It enables utilizing the full potential of next-generation observational missions to improve our understanding of the universe and its fundamental physical laws.
169

Improving sampling, optimization and feature extraction in Boltzmann machines

Desjardins, Guillaume 12 1900 (has links)
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires. / Despite the current widescale success of deep learning in training large scale hierarchical models through supervised learning, unsupervised learning promises to play a crucial role towards solving general Artificial Intelligence, where agents are expected to learn with little to no supervision. The work presented in this thesis tackles the problem of unsupervised feature learning and density estimation, using a model family at the heart of the deep learning phenomenon: the Boltzmann Machine (BM). We present contributions in the areas of sampling, partition function estimation, optimization and the more general topic of invariant feature learning. With regards to sampling, we present a novel adaptive parallel tempering method which dynamically adjusts the temperatures under simulation to maintain good mixing in the presence of complex multi-modal distributions. When used in the context of stochastic maximum likelihood (SML) training, the improved ergodicity of our sampler translates to increased robustness to learning rates and faster per epoch convergence. Though our application is limited to BM, our method is general and is applicable to sampling from arbitrary probabilistic models using Markov Chain Monte Carlo (MCMC) techniques. While SML gradients can be estimated via sampling, computing data likelihoods requires an estimate of the partition function. Contrary to previous approaches which consider the model as a black box, we provide an efficient algorithm which instead tracks the change in the log partition function incurred by successive parameter updates. Our algorithm frames this estimation problem as one of filtering performed over a 2D lattice, with one dimension representing time and the other temperature. On the topic of optimization, our thesis presents a novel algorithm for applying the natural gradient to large scale Boltzmann Machines. Up until now, its application had been constrained by the computational and memory requirements of computing the Fisher Information Matrix (FIM), which is square in the number of parameters. The Metric-Free Natural Gradient algorithm (MFNG) avoids computing the FIM altogether by combining a linear solver with an efficient matrix-vector operation. The method shows promise in that the resulting updates yield faster per-epoch convergence, despite being slower in terms of wall clock time. Finally, we explore how invariant features can be learnt through modifications to the BM energy function. We study the problem in the context of the spike & slab Restricted Boltzmann Machine (ssRBM), which we extend to handle both binary and sparse input distributions. By associating each spike with several slab variables, latent variables can be made invariant to a rich, high dimensional subspace resulting in increased invariance in the learnt representation. When using the expected model posterior as input to a classifier, increased invariance translates to improved classification accuracy in the low-label data regime. We conclude by showing a connection between invariance and the more powerful concept of disentangling factors of variation. While invariance can be achieved by pooling over subspaces, disentangling can be achieved by learning multiple complementary views of the same subspace. In particular, we show how this can be achieved using third-order BMs featuring multiplicative interactions between pairs of random variables.
170

Distributed conditional computation

Léonard, Nicholas 08 1900 (has links)
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts. / The objective of this paper is to present different applications of the distributed conditional computation research program. It is hoped that these applications and the theory presented here will lead to a general solution of the problem of artificial intelligence, especially with regard to the need for efficiency. The vision of distributed conditional computation is to accelerate the evaluation and training of deep models which is very different from the usual objective of improving its generalization and optimization capacity. The work presented here has close ties with mixture of experts models. In Chapter 2, we present a new deep learning algorithm that uses a form of reinforcement learning on a novel neural network decision tree model. We demonstrate the need for a balancing constraint to keep the distribution of examples to experts uniform and to prevent monopolies. To make the calculation efficient, the training and evaluation are constrained to be sparse by using a gater that samples experts from a multinomial distribution given examples. In Chapter 3 we present a new deep model consisting of a sparse representation divided into segments of experts. A neural network language model is constructed from blocks of sparse transformations between these expert segments. The block-sparse operation is implemented for use on graphics cards. Its speed is compared with two dense operations of the same caliber to demonstrate and measure the actual efficiency gain that can be obtained. A deep model using these block-sparse operations controlled by a distinct gater is trained on a dataset of one billion words. A new algorithm for data partitioning (clustering) is applied to a set of words to organize the output layer of a language model into a conditional hierarchy, thereby making it much more efficient. The work presented in this thesis is central to the vision of distributed conditional computation as issued by Yoshua Bengio. It attempts to apply research in the area of mixture of experts to deep models to improve their speed and their optimization capacity. We believe that the theory and experiments of this thesis are an important step on the path to distributed conditional computation because it provides a good framework for the problem, especially concerning competitiveness inherent to systems of experts.

Page generated in 0.1116 seconds