Return to search

Intégration des données manquantes en vue de la prédiction des événements de givre et de verglas

Les matériaux soumis à des conditions climatiques hivernales sont susceptibles de recevoir une accumulation de glace qui peut nuire à leur intégrité ou à leur fonctionnement. L'étude des phénomènes de glace atmosphérique cherche à développer une connaissance qui permettrait de prévoir et d'estimer les dangers d'un événement afin de prendre les mesures appropriées. Des recherches sont effectuées à cet effet. Cependant, aucune étude pour traiter les données manquantes n'a encore été amorcée. Or, l'intégration de ces types de données est nécessaire pour tenir compte des données disponibles et élargir le champ de vision en ce qui concerne le développement de modèle de prédiction des événements de givre et de verglas.

Le présent travail s'inscrit dans le cadre de l'analyse et de l'exploitation des données recueillies par le système d'acquisition de données SYGIVRE. En résumé, on a pu collecter des données provenant de 35 stations de mesure lors de la saison 2001-2002 et pour la saison 2003- 2004, on a compté 32 stations. Ces données provenant des sites naturels ont été traitées afin de créer une base de données des tempêtes de givre et de verglas pour ces saisons d'observation. Les informations disponibles grâce à ce système sont l'ensemble des relevés horaires des valeurs des températures de l'air et des signaux des givromètres.

Afin de construire une base d'apprentissage pour le modèle de prédiction des poids d'accumulation de givre et de verglas et de retracer les tempêtes de givre et de verglas répertoriées dans la base de données SYGIVRE, un processus de modélisation des données a été amorcé. Ceci consiste en premier lieu à la recherche de méthodologie pour identifier les événements élémentaires de givre et de verglas. Ensuite, les types d'accumulation sont déterminés selon leurs caractéristiques. En tenant compte de ces types d'accumulation, une procédure basée sur l'algorithme 9-23 a été proposée pour estimer les taux d'accrétions horaires de givre et de verglas. Ceci a permis l'évaluation de leurs poids d'accumulation au fil des heures. Par la suite, on a défini la notion de tempête avant de proposer une méthode pour répertorier les tempêtes ou événements de givre et de verglas lors des saisons 2001-2002 et 2003-2004. Ce processus de modélisation de la base de données SYGIVRE se termine par le regroupement des stations de mesure. Selon les localités de ces dernières, on a distingué la région de Montréal- Québec, celle du Saguenay - Lac-Saint-Jean et celle de la Côte-Nord. D'après les résultats d'analyse des données, on a recensé 507 tempêtes de givre et de verglas. Ces tempêtes s'étendent dans l'ensemble sur une période de 3948 heures et le cumulatif du nombre de signaux de givromètre enregistrés est égal à 9167 coups. Il a été remarqué que la durée moyenne d'une tempête est égale à 8 heures et on enregistre 18 signaux de givromètre durant son occurrence.

Après avoir modélisé la base de données SYGIVRE, nous avons amorcé le développement du modèle de prédiction des poids d'accumulation de givre et de verglas lors des tempêtes identifiées par la première phase de ce travail. Nous avons choisi une architecture de réseau de neurones multicouche à rétropropagation de l'erreur. Étant donné que nous n'avons pas suffisamment de données pour effectuer l'apprentissage de ce modèle, une simulation de données de givrage atmosphérique a été effectuée pour le valider avant de le tester avec les données de la base de données SYGIVRE. La principale raison d'utilisation de ces données simulées est le fait que des tests directs sur les données réelles ne nous assurent pas la validité du modèle de prédiction quand une partie des données est manquante. Ainsi, ces tests préliminaires nous permettront d'estimer la performance du modèle de réseau de neurones. De plus, cette simulation de données virtuelles permet non seulement de générer des données statistiquement proches des données réelles mais aussi d'avoir une représentation du phénomène de givrage atmosphérique.

En vue de poursuivre l'objectif à atteindre, une méthodologie a été élaborée afin d'intégrer les données manquantes au modèle de prédiction. En principe, toutes les observations doivent être complètes pour les deux phases de développement de réseau de neurones: apprentissage et prévision. Ces conditions ne sont pas respectées quand des valeurs sont manquantes à une ou plusieurs stations de mesure. Pour pallier ces problèmes, l'applicabilité des méthodes statistiques d'imputations a été étudiée. Trois types de données manquantes ont été considérés dans cette étude: des données manquantes au hasard, des données manquantes complètement au hasard et les autres types de données manquantes. Ainsi, des méthodes de remplacement de données ont été réalisées pour chaque groupe de stations et ont permis d'estimer des valeurs manquantes pour des courtes périodes d'observation. En ce qui concerne la résolution du problème causé par la présence de saisons manquantes, nous avons introduit la technique d'inhibition des cellules du réseau de neurones pour adapter l'algorithme d'apprentissage à ces lacunes de données.

Lors des expériences, plusieurs configurations du modèle de prédiction ont été utilisées en variant les paramètres du réseau de neurones. Ces paramètres sont le nombre de cellules dans la couche cachée, le taux d'apprentissage et le moment d'apprentissage. D'après les résultats obtenus, on démontre que la technique d'inhibition de réseaux de neurones permet d'intégrer les valeurs manquantes pour la prédiction des événements de givre et de verglas. Les tests sur les données simulées, avec et sans données manquantes, ont fait ressortir deux modèles de prédiction qui ont sensiblement les mêmes performances et qui sont fonctionnels par rapport à la prévision des tempêtes de givre et de verglas. Toutefois, quand on a varié les paramètres du modèle, on a remarqué que ce dernier ne fournit pas toujours les résultats escomptés vis-à-vis de toutes les stations composant le groupe étudié. En ce qui concerne les tests sur les données du groupe du Saguenay - Lac-Saint-Jean, les mêmes constatations ont été observées. En effet, la présence de saison manquante au niveau d'une des stations composant ce groupe n'empêche pas le modèle étudié de prédire correctement les événements de givre et de verglas aux autres stations. En résumé, les résultats des validations des modèles de prédiction des événements de givre et de verglas nous amènent à affirmer que la combinaison des méthodes d'imputation statistiques et la technique d'inhibition du réseau de neurones lors de la phase d'apprentissage permettent d'intégrer les données manquantes dans l'étude de ce phénomène. Ces modèles de prédiction sont fonctionnels et affichent de bons résultats de prédiction lorsque leurs paramètres sont bien calibrés. En effet, les perturbations engendrées par les données manquantes sont insignifiantes d'après la validation des modèles avec les données simulées et avec les données du groupe de stations de la région du Saguenay - Lac-Saint-Jean. Par ailleurs, on a constaté que ces modèles sont instables avec la variation des paramètres d'apprentissage du réseau de neurones. Cette étude a apporté des éléments de réponses aux problèmes impliqués par la présence des lacunes au niveau de la base de données SYGIVRE. De plus, elle contribue à la compréhension des problèmes reliés au suivi des événements de givre et de verglas par les interrogations qu'elle soulève et le besoin de les étudier.

Identiferoai:union.ndltd.org:Quebec/oai:constellation.uqac.ca:327
Date January 2008
CreatorsRajaonarivelo, Rémi
Source SetsUniversité du Québec à Chicoutimi
LanguageFrench
Detected LanguageFrench
TypeThèse ou mémoire de l'UQAC, NonPeerReviewed
Formatapplication/pdf
Relationhttp://constellation.uqac.ca/327/, doi:10.1522/030077969

Page generated in 0.0031 seconds