Le traitement des données massives, communément connu sous l’appellation “Big Data”, constitue l’un des principaux défis scientifiques de la communauté STIC.Plusieurs domaines, à savoir économique, industriel ou scientifique, produisent des données hétérogènes acquises selon des protocoles technologiques multi-modales. Traiter indépendamment chaque ensemble de données mesurées est clairement une approche réductrice et insatisfaisante. En faisant cela, des “relations cachées” ou des inter-corrélations entre les données peuvent être totalement ignorées.Les représentations tensorielles ont reçu une attention particulière dans ce sens en raison de leur capacité à extraire de données hétérogènes et volumineuses une information physiquement interprétable confinée à un sous-espace de dimension réduite. Dans ce cas, les données peuvent être organisées selon un tableau à D dimensions, aussi appelé tenseur d’ordre D.Dans ce contexte, le but de ce travail et que certaines propriétés soient présentes : (i) avoir des algorithmes de factorisation stables (ne souffrant pas de probème de convergence), (ii) avoir un faible coût de stockage (c’est-à-dire que le nombre de paramètres libres doit être linéaire en D), et (iii) avoir un formalisme sous forme de graphe permettant une visualisation mentale simple mais rigoureuse des décompositions tensorielles de tenseurs d’ordre élevé, soit pour D > 3.Par conséquent, nous nous appuyons sur la décomposition en train de tenseurs (TT) pour élaborer de nouveaux algorithmes de factorisation TT, et des nouvelles équivalences en termes de modélisation tensorielle, permettant une nouvelle stratégie de réduction de dimensionnalité et d'optimisation de critère des moindres carrés couplés pour l'estimation des paramètres d'intérêts nommé JIRAFE.Ces travaux d'ordre méthodologique ont eu des applications dans le contexte de l'analyse spectrale multidimensionelle et des systèmes de télécommunications à relais. / Massive and heterogeneous data processing and analysis have been clearly identified by the scientific community as key problems in several application areas. It was popularized under the generic terms of "data science" or "big data". Processing large volumes of data, extracting their hidden patterns, while preforming prediction and inference tasks has become crucial in economy, industry and science.Treating independently each set of measured data is clearly a reductiveapproach. By doing that, "hidden relationships" or inter-correlations between thedatasets may be totally missed. Tensor decompositions have received a particular attention recently due to their capability to handle a variety of mining tasks applied to massive datasets, being a pertinent framework taking into account the heterogeneity and multi-modality of the data. In this case, data can be arranged as a D-dimensional array, also referred to as a D-order tensor.In this context, the purpose of this work is that the following properties are present: (i) having a stable factorization algorithms (not suffering from convergence problems), (ii) having a low storage cost (i.e., the number of free parameters must be linear in D), and (iii) having a formalism in the form of a graph allowing a simple but rigorous mental visualization of tensor decompositions of tensors of high order, i.e., for D> 3.Therefore, we rely on the tensor train decomposition (TT) to develop new TT factorization algorithms, and new equivalences in terms of tensor modeling, allowing a new strategy of dimensionality reduction and criterion optimization of coupled least squares for the estimation of parameters named JIRAFE.This methodological work has had applications in the context of multidimensional spectral analysis and relay telecommunications systems.
Identifer | oai:union.ndltd.org:theses.fr/2019SACLS330 |
Date | 15 October 2019 |
Creators | Zniyed, Yassine |
Contributors | Paris Saclay, Boyer, Rémy |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | English |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.002 seconds