Return to search

Phronesis, a diagnosis and recovery tool for system administrators / Phronesis, un outil de diagnostic et de résolution pour les administrateurs systèmes

Le système online de l'expérience LHCb repose sur une large infrastructure informatique hétérogène, composée de milliers de serveurs sur lesquels de nombreuses applications différentes sont exécutées. Certaines applications sont critiques (prise de données, contrôle du détecteur), d'autres secondaires (serveurs web). Administrer un tel système et s'assurer de son bon fonctionnement représente une lourde charge de travail pour une petite équipe d'experts. Des recherches ont été menées afin d'automatiser certaines tâches d'administration système. En 2001, IBM définit les « self-objectives » sensés conduire à l' «autonomic computing» (informatique autonome). Dans ce contexte, nous présentons un framework basé sur l'intelligence artificielle et l'apprentissage par renforcement pour surveiller et diagnostiquer de manière non intrusive les systèmes et logiciels basés sur Linux. De plus, notre approche d’expérience partagée ainsi que notre architecture suivant le paradigme Objet permettent d'augmenter considérablement la vitesse d'apprentissage et de corréler les problèmes. / The LHCb online system relies on a large and heterogeneous IT infrastructure made from thousands of servers on which many different applications are running. They run a great variety of tasks : critical ones such as data taking and secondary ones like web servers. The administration of such a system and making sure it is working properly represents a very important workload for the small expert-operator team. Research has been performed to try to automatize (some) system administration tasks, starting in 2001 when IBM defined the so-called “self objectives” supposed to lead to “autonomic computing”. In this context, we present a framework that makes use of artificial intelligence and machine learning to monitor and diagnose at a low level and in a non intrusive way Linux-based systems and their interaction with software. Moreover, the shared experience approach we use, coupled with an "object oriented paradigm" architecture increases a lot our learning speed, and highlight relations between problems.

Identiferoai:union.ndltd.org:theses.fr/2013CLF22387
Date24 October 2013
CreatorsHaen, Christophe
ContributorsClermont-Ferrand 2, Barra, Vincent
Source SetsDépôt national des thèses électroniques françaises
LanguageEnglish
Detected LanguageFrench
TypeElectronic Thesis or Dissertation, Text

Page generated in 0.0026 seconds