• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 2
  • Tagged with
  • 3
  • 3
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Improving Model Performance with Robust PCA

Bennett, Marissa A. 15 May 2020 (has links)
As machine learning becomes an increasingly relevant field being incorporated into everyday life, so does the need for consistently high performing models. With these high expectations, along with potentially restrictive data sets, it is crucial to be able to use techniques for machine learning that increase the likelihood of success. Robust Principal Component Analysis (RPCA) not only extracts anomalous data, but also finds correlations among the given features in a data set, in which these correlations can themselves be used as features. By taking a novel approach to utilizing the output from RPCA, we address how our method effects the performance of such models. We take into account the efficiency of our approach, and use projectors to enable our method to have a 99.79% faster run time. We apply our method primarily to cyber security data sets, though we also investigate the effects on data sets from other fields (e.g. medical).
2

Diagnostic de fonctionnement par analyse en composantes principales : application à une station de traitement des eaux usées / Fault diagnosis using principal component analysis : application to a wastewater treatment plant

Tharrault, Yvon 11 December 2008 (has links)
L’objectif de cette thèse était de valider l’ensemble des informations délivrées par les capteurs utiles à la commande d’une station de traitement des eaux usées. Pour cela, nous avons utilisé l’analyse en composantes principales (ACP) pour effectuer la détection et localisation de défauts de capteurs de la station de traitement des eaux usées. Afin de construire un modèle ACP, nous avons eu recours à une matrice de données constituée de l’ensemble des mesures disponibles (obtenues lors du fonctionnement normal de la station de traitement des eaux usées) dans l’installation. Cependant, afin d’appliquer l’ACP, nous avons rencontré plusieurs difficultés : 1. Présence dans les données de valeurs aberrantes (valeurs obtenues durant des périodes de démarrage, d’arrêt, de fonctionnement dégradé, erreurs de mesure, ...) perturbant la construction d’un modèle ACP. 2. Présence de défauts multiples, ce qui entraîne une explosion combinatoire des scénarii de défauts à considérer. Afin de résoudre le premier point, nous nous sommes intéressé aux variantes robustes de l’ACP. L’estimateur robuste MCD (Minimum Covariance Determinant), méthode de référence pour ses performances, nécessite un temps de calcul important, et une connaissance a priori de la quantité de valeurs aberrantes présente dans les données (inconnue). C’est la raison pour laquelle nous avons proposé une nouvelle méthode robuste, basée sur l’utilisation de MM-estimateur, nommée MMRPCA (MM-estimator Robust Principal Component Analysis). Concernant le point 2, une méthode d’analyse du modèle en terme de capacité de détection et de localisation a été appliquée afin de réduire le nombre de défauts à considérer. Les différentes méthodes développées ont été menées avec succès afin de valider les mesures issues des différents capteurs de la station d’épuration des eaux usées / This thesis deals with the validation of the information provided by the sensors to the control of a wastewater treatment plant. For this purpose, Principal Component Analysis (PCA) approach is used in order to accomplish sensor fault detection and isolation of the wastewater treatment plant. This approach is well adapted to cope with diagnosis of complex systems because no a priori theoretical model of the plant must be considered. A data matrix, obtained by taking into consideration the available measurements in normal behaviour of the wastewater treatment plant, is used in order to build a PCA model. However, two major problems must be taking into consideration when PCA is implemented: 1. Outliers appear naturally in the collection data (caused for example by faulty data, data obtained during shutdown or startup periods or data issued from different operating mode) and consequently the PCA model can seriously be affected. 2. Multiple sensor faults introduce unavoidably a combinatory explosion of the different fault scenarios to be considered. The first problem is solved by introducing a robustness degree in the PCA methodology. Among the existing robust methods proposed in the literature, the robust estimator MCD (Minimum Covariance Determinant) is the most popular. However, this method needs a large computing time on the one hand and a priori knowledge of the quantity of outliers present (generally unknown) in the data on the other hand. To avoid these difficulties, a new robust method is proposed in this thesis. Our method, namely MMRPCA (MM-estimator Robust Principal Component Analysis), is based on MM-estimators. The second mentioned problem is tackled by reducing the considered number of faults thanks to a new analysis method of the capacities of detection and isolation of the PCA model. The efficiency of the proposed methodologies is verified by considering the real wastewater treatment plant data
3

Analyse robuste de formes basée géodésiques et variétés de formes / Robust shape analysis based on geodesics and shape manifolds

Abboud, Michel 15 December 2017 (has links)
L’un des problèmes majeurs en analyse de formes est celui de l’analyse statistique en présence de formes aberrantes. On assiste avec l’évolution des moyens de collecte automatique des données, à la présence des valeurs aberrantes qui peuvent affecter énormément l’analyse descriptive des formes. En effet, les approches de l’état de l’art ne sont pas assez robustes à la présence de formes aberrantes. En particulier, la forme moyenne calculée penche vers les observations aberrantes et peut ainsi porter des déformations irrégulières. Aussi, l’analyse par ACP de la variabilité dans une classe de formes donnée conduit à des modes de variation qui décrivent plutôt la variabilité portée par ces formes aberrantes. Dans ce travail de thèse, nous proposons un schéma d’analyse robuste aux aberrations qui peuvent entacher une classe de formes donnée. Notre approche est une variante robuste de l’ACP qui consiste à détecter et à restaurer les formes aberrantes préalablement à une ACP menée dans l’espace tangent relatif à la forme moyenne. Au lieu de simplement éliminer les formes aberrantes, nous voulons bénéficier de la variabilité locale correcte qui y est présente en intégrant leur version restaurée dans l’analyse. Nous proposons également une approche variationnelle et une ACP élastique pour l’analyse de la variabilité d’un ensemble de formes en s’appuyant sur une métrique robuste basée géodésique. La troisième contribution de la thèse se situe au niveau des algorithmes de classification des formes basée sur les statistiques de formes : classification utilisant la moyenne intrinsèque, ou relaxée, par ACP tangente et par formes propres.Les approches proposées sont évaluées et comparées aux approches de l’état de l’art sur les bases de formes HAND et MPEG-7. Les résultats obtenus démontrent la capacité du schéma proposé à surpasser la présence de formes aberrantes et fournir des modes de variation qui caractérisent la variabilité des formes étudiées. / A major and complex problem in shape analysis is the statistical analysis of a set of shapes containing aberrant shapes. With the evolution of automatic data acquisition means, outliers can occur and their presence may greatly affect the descriptive analysis of shapes.Actually, state-of-the-art approaches are not robust enough to outliers. In particular, the calculated mean shape deviates towards the aberrant observations and thus carries irregular deformations.Similarly, the PCA analysis of the variability in a given class of shapes leads to variation modes which rather describe the variability carried by these aberrant shapes.In this thesis work, we propose a robust analysis scheme to handle the effects of aberrations that can occur in a given set. Our approach is a robust variant of PCA that consists in detecting and restoring aberrant shapes prior to a PCA in the tangent space relative to the means shape.Instead of simply rejecting outliers, we want to benefit from the present correct local variability by integrating their restored version into the analysis. We also propose a variational approach and an elastic PCA for the analysis of the variability of a set of shapes by using a robust geodesic-based metric. The third contribution of the thesis lies in the algorithms of shape classification based on shapes statistics: classification using the intrinsic mean shape, or relaxed one, by tangent PCA and by eigenshapes.The proposed schemes are evaluated and compared with existing schemes through two shape databases, HAND and MPEG-7. The results show the proposed scheme’s ability to overcome the presence of aberrant shapes and provide variation modes that characterize the variability of studied shapes.

Page generated in 0.0328 seconds