L’Internet des Objets (IoT) est envisagé pour interconnecter des objets communicants et autonomes au sein du même réseau, qui peut être le réseau Internet ou un réseau de communication sans fil. Les objets autonomes qui composent les réseaux IoT possèdent des caractéristiques très différentes, que ce soit en terme d’application, de connectivité, de puissance de calcul, de mobilité ou encore de consommation de puissance. Le fait que tant d’objets hétérogènes partagent un même réseau soulève de nombreux défis tels que : l’identification des objets, l’efficacité énergétique, le contrôle des interférences du réseau, la latence ou encore la fiabilité des communications. La densification du réseau couplée à la limitation des ressources spectrales (partagées entre les objets) et à l’efficacité énergétique obligent les objets à optimiser l’utilisation des ressources fréquentielles et de puissance de transmission. De plus, la mobilité des objets au sein du réseau ainsi que la grande variabilité de leur comportement changent la dynamique du réseau qui devient imprévisible. Dans ce contexte, il devient difficile pour les objets d’utiliser des algorithmes d’allocation de ressources classiques, qui se basent sur une connaissance parfaite ou statistique du réseau. Afin de transmettre de manière efficace, il est impératif de développer de nouveaux algorithmes d’allocation de ressources qui sont en mesure de s’adapter aux évolutions du réseau. Pour cela, nous allons utiliser des outils d’optimisation en ligne et des techniques d’apprentissage. Dans ce cadre nous allons exploiter la notion du regret qui permet de comparer l’efficacité d’une allocation de puissance dynamique à la meilleure allocation de puissance fixe calculée à posteriori. Nous allons aussi utiliser la notion de non-regret qui garantit que l’allocation de puissance dynamique donne des résultats asymptotiquement optimaux . Dans cette thèse, nous nous sommes concentrés sur le problème de minimisation de puissance sous contrainte de débit. Ce type de problème permet de garantir une certaine efficacité énergétique tout en assurant une qualité de service minimale des communications. De plus, nous considérons des réseaux de type IoT et ne faisons donc aucune hypothèse quant aux évolutions du réseau. Un des objectifs majeurs de cette thèse est la réduction de la quantité d’information nécessaire à la détermination de l’allocation de puissance dynamique. Pour résoudre ce problème, nous avons proposé des algorithmes inspirés du problème du bandit manchot, problème classique de l’apprentissage statistique. Nous avons montré que ces algorithmes sont efficaces en terme du regret lorsque l’objet a accès à un vecteur, le gradient ou l’estimateur non-biaisé du gradient, comme feedback d’information. Afin de réduire d’avantage la quantité d’information reçue par l’objet, nous avons proposé une méthode de construction d’un estimateur du gradient basé uniquement sur une information scalaire. En utilisant cet estimateur nous avons présenté un algorithme efficace d’allocation de puissance. / One of the key challenges in Internet of Things (IoT) networks is to connect numerous, heterogeneous andautonomous devices. These devices have different types of characteristics in terms of: application, computational power, connectivity, mobility or power consumption. These characteristics give rise to challenges concerning resource allocation such as: a) these devices operate in a highly dynamic and unpredictable environments; b) the lack of sufficient information at the device end; c) the interference control due to the large number of devices in the network. The fact that the network is highly dynamic and unpredictable implies that existing solutions for resource allocation are no longer relevant because classical solutions require a perfect or statistical knowledge of the network. To address these issues, we use tools from online optimization and machine learning. In the online optimization framework, the device only needs to have strictly causal information to define its online policy. In order to evaluate the performance of a given online policy, the most commonly used notion is that of the regret, which compares its performance in terms of loss with a benchmark policy, i.e., the best fixed strategy computed in hindsight. Otherwise stated, the regret measures the performance gap between an online policy and the best mean optimal solution over a fixed horizon. In this thesis, we focus on an online power minimization problem under rate constraints in a dynamic IoT network. To address this issue, we propose a regret-based formulation that accounts for arbitrary network dynamics, using techniques used to solve the multi-armed bandit problem. This allows us to derive an online power allocation policy which is provably capable of adapting to such changes, while relying solely on strictly causal feedback. In so doing, we identify an important tradeoff between the amount of feedback available at the transmitter side and the resulting system performance. We first study the case in which the device has access to a vector, either the gradient or an unbiased estimated of the gradient, as information feedback. To limit the feedback exchange in the network our goal is to reduce it as mush as possible. Therefore, we study the case in which the device has access to only a loss-based information (scalar feedback). In this case, we propose a second online algorithm to determine an efficient and adaptative power allocation policy.
Identifer | oai:union.ndltd.org:theses.fr/2019CERG0995 |
Date | 21 February 2019 |
Creators | Marcastel, Alexandre |
Contributors | Cergy-Pontoise, Fijalkow, Inbar |
Source Sets | Dépôt national des thèses électroniques françaises |
Language | French |
Detected Language | French |
Type | Electronic Thesis or Dissertation, Text |
Page generated in 0.0028 seconds