Au cours de la dernière décennie, des progrès significatifs ont été réalisés dans le domaine de l’IA, principalement grâce aux progrès de l’apprentissage automatique, de l’apprentissage profond et de l’utilisation de modèles à grande échelle. Cependant, à mesure que ces modèles évoluent, ils présentent de nouveaux défis en termes de gestion de grands ensembles de données et d’efficacité informatique. Cette thèse propose des approches pour réduire les coûts de calcul de la formation et de l’inférence dans les systèmes d’intelligence artificielle (IA).
Plus précisément, ce travail étudie les techniques d’apprentissage continu et de calcul adaptatif, démontrant des stratégies possibles pour préserver les niveaux de performance de ces systèmes tout en réduisant considérablement les coûts de formation et d’inférence. Les résultats du premier article montrent que les modèles de base peuvent être continuellement pré-entraînés grâce à une méthode d’échauffement et de relecture, ce qui réduit considérable- ment les coûts de calcul de l’entraînement tout en préservant les performances par rapport à un entraînement à partir de zéro.
Par la suite, la thèse étudie comment les stratégies de calcul adaptatif, lorsqu’elles sont combinées avec la mémoire, peuvent être utilisées pour créer des agents d’IA plus efficaces au moment de l’inférence pour des tâches de raisonnement complexes, telles que le jeu stratégique de Sokoban. Nos résultats montrent que les modèles peuvent offrir des per- formances similaires ou améliorées tout en utilisant beaucoup moins de ressources de calcul. Les résultats de cette étude ont de vastes implications pour l’amélioration de l’efficacité in- formatique des systèmes d’IA, soutenant à terme le développement de technologies d’IA plus abordables, accessibles et efficaces. / Over the past decade, significant progress has been made by the field of AI, primarily due to advances in machine learning, deep learning, and the usage of large scale models. However, as these models scale, they present new challenges with respect to handling large datasets and being computationally efficient. This thesis proposes approaches to reducing computational costs of training and inference in artificial intelligence (AI) systems.
Specifically, this work investigates how Continual Learning and Adaptive Computation techniques can be used to reducing training and inference costs while preserving the perfor- mance levels of these systems . The findings of the first article show that foundation models can be continually pre-trained through a method of warm-up and replay, which significantly decreases training computational costs while preserving performance compared to training from scratch.
Subsequently, the thesis investigates how adaptive computation strategies, when com- bined with memory, can be utilized to create more computationally efficient AI agents at inference time for complex reasoning tasks, such as the strategic game of Sokoban. Our results exhibit that models can deliver similar or improved performances while using signifi- cantly fewer computational resources. Findings from this study have broad implications for improving the computational efficiency of AI systems, ultimately supporting the development of more affordable, accessible, and efficient AI technologies.
Identifer | oai:union.ndltd.org:umontreal.ca/oai:papyrus.bib.umontreal.ca:1866/33437 |
Date | 01 1900 |
Creators | Gupta, Kshitij |
Contributors | Anbil Parthipan, Sarath Chandar, Rish, Irina |
Source Sets | Université de Montréal |
Language | English |
Detected Language | French |
Type | thesis, thèse |
Format | application/pdf |
Page generated in 0.002 seconds