361 |
Applications d'un alphabet structural pour l'analyse, la prédiction et la reconnaissance des repliements des protéines / Applications of a structural alphabet for protein structure analysis, prediction and fold recognitionMahajan, Swapnil 29 October 2013 (has links)
Les blocs protéiques (BP) constituent un alphabet structural qui permettent une bonne approximation du squelette carbonnée des protéines et la compression de l'information 3D en 1D. Leur utilisation a permis d'appréhender sous un nouvel angle la structure des protéines. Cette thèse explore de nouvelles applications des BP pour l'analyse des structures des protéines, leur prédiction et la reconnaissance de leurs repliements. Dans un premier temps, nous utilisons les BP pour une caractérisation fine des régions variables dans les alignements structuraux de protéines homologues. Ces régions peuvent néanmoins présenter des similarités importantes en terme de conformation. Leur caractérisation a permis de les distinguer des régions dont les conformations sont différentes. Nous montrons aussi que les variations intrinsèques de certaines régions comme les boucles au sein d’une protéine ne sont pas corrélées aux différences de conformation observées dans les régions équivalentes entre protéines homologues. Dans une deuxième partie, nous analysons la relation séquence-structure à l'aide de BP par le biais d'une base de données de pentapeptides issus des structures des protéines. Celle-ci a servi de base pour la mise en place d'outils pour la prédiction du squelette carbonnée des protéines (PB-kPRED) et de sa plasticité (PB-SVindex). Nous exposons comment ces prédictions permettent la reconnaissance du repliement des protéines avec un certain succès et l'identification de probables points chauds structuraux et fonctionnels. En dernière partie, nous présentons un nouvel algorithme (FoRSA) pour la reconnaissance du repliement des protéines à l'aide des BP. Cet algorithme s'appuie sur le calcul de la probabilité conditionnelle qu'une séquence adopte un repliement donné et a été testé avec succès sur des protéines tirées de CASP10. Nous montrons que FoRSA peut être utilisé pour l'annotation structurale rapide de génomes entiers. / Analysis of protein structures using structural alphabets has provided new insights into protein function and evolution. We have used a structural alphabet called proteins blocks (PBs) which efficiently approximates protein backbone and allows abstraction of 3D protein structures into 1D PB sequences. This thesis describes applications of PBs for protein structure analysis, prediction and fold recognition. First, PBs were used to provide a refined view of structurally variable regions (SVRs) in homologous proteins in terms of conformationally similar and dissimilar SVRs in which were compiled a database of structural alignments (DoSA). We also show that the inherent conformational variations in loop regions are not correlated to corresponding conformational differences in their homologues. Second, to further analyze sequence-structure relationships in terms of PBs and other structural features, we have set up a database of pentapeptides derived from protein structures. This served as a basis for the knowledge-based prediction of local protein structure in terms of PB sequences (PB-kPRED) and of local structure plasticity (PB-SVindex). We demonstrate the successful applications of PB-kPRED for fold recognition and explored possible identification of structural and functional hotspots in proteins using PB-SVindex. Finally, an algorithm for fold recognition using a structural alphabet (FoRSA) based on calculation of conditional probability of sequence-structure compatibility was developed. This new threading method has been successfully benchmarked on a test dataset from CASP10 targets. We further demonstrate the application of FoRSA for fast structural annotations of genomes.
|
362 |
Contribution à la mise au point d'un pilotage énergétique décentralisé par prédiction / Decentralized energy management by predictionsDufour, Luc 20 March 2017 (has links)
Comment satisfaire les besoins en énergie d’une population de 9 milliards d’êtres humains en 2050, de façon économiquement viable tout en minimisant l’impact sur l’environnement. Une des réponses est l’insertion de production d’énergie propre d’origine éolienne et photovoltaïque mais leurs totales dépendances aux variations climatiques accentuent une pression sur le réseau. Les modèles prédictifs historiques centralisés et paramétriques ont du mal à appréhender les variations brutales de productions et de consommations. La révolution internet permet aujourd’hui une convergence entre le numérique et l’énergie. En Europe et depuis cinq ans, l’axe d’étude est celui de la maîtrise locale de l’électricité. Ainsi plusieurs quartiers intelligents ont été créés et les modèles utilisés de pilotage et de prédiction restent souvent la propriété des partenaires des projets. Dans cette thèse, Il s’agit de réaliser un bilan énergétique chaque heure pour prédire l’ensemble des vecteurs énergétiques d’un système. Le besoin en énergie d’un système comme une maison est décomposée en un besoin en chauffage, en un besoin en eau chaude sanitaire, en un besoin en luminaires, en besoin de ventilation et en usages spécifiques électriques utiles. Le système peut posséder une production décentralisée et un système de stockage ce qui augmentera sa capacité d’effacement. Pour le centre de pilotage, l’objectif est d’avoir une possibilité de scénarios de surproductions ou surconsommations sur un quartier donnée à court terme. Nous considérerons dans cette thèse un horizon à l’heure pour notre bilan énergétique. Cela implique une prédiction fine des différents flux énergétiques d’un système en particulier le chauffage et l’eau chaude qui représente le plus gros potentiel de flexibilité dans les bâtiments. Pour réaliser un bilan, nous devons calculer les différents flux énergétiques à l’intérieur de notre système : les déperditions par l’enveloppe et la ventilation, les gains internes solaires, des personnes et des appareils, le stockage, la production d’eau chaude sanitaire, les usages spécifiques électriques utiles. Sur certains de ces points, nous pouvons évaluer assez précisément et en fonction du temps les quantités d’énergie échangées. Pour les autres (ECS, USE, gains internes, stockage), la bibliographie nous donne que des méthodes globales et indépendantes du temps. Il n’est donc pas possible d’envisager une méthode correspondant au pas de temps souhaité. Ceci impose la mise au point d’une méthode prédictive et apprenante dont nos modèles de simulation énergétique seront le point de référence. Il n’en reste pas moins que ces modèles permettent la compréhension du comportement énergétique du système. L’outil se devra non intrusif, personnalisé, robuste et simple. Pour limiter le caractère intrusif de l’outil, il s’agit à la fois d’ajouter de l’intelligence comme par exemple l’identification des appareils utiles à partir d’un seul point de mesure mais aussi la collection et l’analyse d’informations localement. Les données privées ne sont pas transmises vers l’extérieur. Seules les informations de prédictions énergétiques sont envoyées à un niveau supérieur pour agrégation des données des quartiers. L’intelligence est également au niveau des prédictions réalisées issues de méthodes d’apprentissage comme l’utilisation des réseaux de neurones ou des arbres de décision. La robustesse est étudiée d’un point de vue technologie (plusieurs protocoles de communication ont été testés), techniques (plusieurs méthodes de collecte) et d’un point de vue du stockage de données (limiter la fréquence de collecte). La simplicité d’usage engendre une simplicité d’installation minimiser le nombre de données d’entrée tout en gardant une précision souhaitable sera notre principal axe d’optimisation. / This work presents a data-intensive solution to manage energy flux after a low transformer voltage named microgrid concept. A microgrid is an aggregation of building with a decentralized energy production and or not a storage system. These microgrid can be aggregate to create an intelligent virtual power plant. However, many problems must be resolved to increase the part of these microgrid and the renewable resource in a energy mix. The physic model can not integrate and resolve in a short time the quickly variations. The intelligent district can be integrate a part of flexibility in their production with a storage system. This storage can be electrical with a battery or thermal with the heating and the hot water. For a virtual power plant, the system can be autonomous when the price electricity prediction is low and increase the production provided on the market when the price electricity is high. For a energy supplier and with a decentralized production building distant of a low transformer voltage, a regulation with a storage capacity enable a tension regulation. Finally, the auto-consumption becomes more and more interesting combined with a low electrical storage price and the result of the COP 21 in Paris engage the different country towards the energy transition. In these cases, a flexibility is crucial at the building level but this flexibility is possible if, and only if, the locally prediction are correct to manage the energy. The main novelties of our approach is to provide an easy implemented and flexible solution to predict the consumption and the production at the building level based on the machine learning technique and tested on the real use cases in a residential and tertiary sector. A new evaluation of the consumption is realized: the point of view is energy and not only electrical. The energy consumption is decomposed between the heating consumption, the hot water consumption and the electrical devices consumption. A prediction every hour is provided for the heating and the hot water consumption to estimate the thermal storage capacity. A characterization of Electrical devices consumption is realized by a non-intrusive disaggregation from the global load curve. The heating and the hot water are identify to provide a non intrusive methodology of prediction. Every day, the heating, the hot water, the household appliances, the cooling and the stand by are identified. Every 15 minutes, our software provide a hot water prediction, a heating prediction, a decentralized prediction and a characterization of the electrical consumption. A comparison with the different physic model simulated enable an error evaluation the error of our different implemented model.
|
363 |
Link prediction in dynamic and human-centered mobile wireless networks / La prédiction de liens dans les réseaux sans-fil dynamiques centrés sur l’être humainZayani, Mohamed-Haykel 20 September 2012 (has links)
Durant ces dernières années, nous avons observe une expansion progressive et continue des réseaux mobile sans-fil centres sur l’être humain. L’apparition de ces réseaux a encouragé les chercheurs à réfléchir à de nouvelles solutions pour assurer une évaluation efficace et une conception adéquate des protocoles de communication. En effet, ces réseaux sont sujets à de multiples contraintes telles que le manque d’infrastructure, la topologie dynamique, les ressources limitées ainsi que la qualité de service et la sécurité des informations précaires. Nous nous sommes spécialement intéressés à l’aspect dynamique du réseau et en particulier à la mobilité humaine. La mobilité humaine a été largement étudiée pour pouvoir extraire ses propriétés intrinsèques et les exploiter pour des approches plus adaptées à cette mobilité. Parmi les propriétés les plus intéressantes soulevées dans la littérature, nous nous sommes focalisés sur l’impact des interactions sociales entre les entités du réseau sur la mobilité humaine et en conséquence sur la structure du réseau. Pour recueillir des informations structurelles sur le réseau, plusieurs métriques et techniques ont été empruntées de l’analyse des réseaux sociaux (SNA). Cet outil peut être assimilé à une autre alternative pour mesurer des indicateurs de performance du réseau. Plus précisément, il extrait des informations structurelles du réseau et permet aux protocoles de communication de bénéficier d’indications utiles telles que la robustesse du réseau, les nœuds centraux ou encore les communautés émergentes. Dans ce contexte, la SNA a été largement utilisée pour prédire les liens dans les réseaux sociaux en se basant notamment sur les informations structurelles. Motivés par l’importance des liens sociaux dans les réseaux mobiles sans-fil centres sur l’être humain et par les possibilités offertes par la SNA pour prédire les liens, nous nous proposons de concevoir la première méthode capable de prédire les liens dans les réseaux sans-fil mobiles tels que les réseaux ad-hoc mobiles (MANETs) et les réseaux tolérants aux délais (DTNs). Notre proposition suit l’évolution de la topologie du réseau sur T périodes à travers un tenseur (en ensemble de matrices d’adjacence et chacune des matrices correspond aux contacts observés durant une période bien spécifique). Ensuite, elle s’appuie sur le calcul de la mesure sociométrique de Katz pour chaque paire de nœuds pour mesurer l’étendue des relations sociales entre les différentes entités du réseau. Une telle quantification donne un aperçu sur les liens dont l’occurrence est fortement pressentie à la période T+1 et les nouveaux liens qui se créent dans le futur sans pour autant avoir été observés durant le temps de suivi. Pour attester l’efficacité de notre proposition, nous l’appliquons sur trois traces réelles et nous comparons sa performance à celles d’autres techniques de prédiction de liens présentées dans la littérature. Les résultats prouvent que notre méthode est capable d’atteindre le meilleur niveau d’efficacité et sa performance surpasse celles des autres techniques. L’une des majeures contributions apportées par cette proposition met en exergue la possibilité de prédire les liens d’une manière décentralisée. En d’autres termes, les nœuds sont capables de prédire leurs propres liens dans le futur en se basant seulement sur la connaissance du voisinage immédiat (voisins à un et deux sauts). En outre, nous sommes désireux d’améliorer encore plus la performance de notre méthode de prédiction de liens. Pour quantifier la force des relations sociales entre les entités du réseau, nous considérons deux aspects dans les relations : la récence des interactions et leur fréquence. À partir de là, nous nous demandons s’il est possible de prendre en compte un troisième critère pour améliorer la précision des prédictions […] / During the last years, we have observed a progressive and continuous expansion of human-centered mobile wireless networks. The advent of these networks has encouraged the researchers to think about new solutions in order to ensure efficient evaluation and design of communication protocols. In fact, these networks are faced to several constraints as the lack of infrastructure, the dynamic topology, the limited resources and the deficient quality of service and security. We have been interested in the dynamicity of the network and in particular in human mobility. The human mobility has been widely studied in order to extract its intrinsic properties and to harness them to propose more accurate approaches. Among the prominent properties depicted in the literature, we have been specially attracted by the impact of the social interactions on the human mobility and consequently on the structure of the network. To grasp structural information of such networks, many metrics and techniques have been borrowed from the Social Network Analysis (SNA). The SNA can be seen as another network measurement task which extracts structural information of the network and provides useful feedback for communication protocols. In this context, the SNA has been extensively used to perform link prediction in social networks relying on their structural properties. Motivated by the importance of social ties in human-centered mobile wireless networks and by the possibilities that are brought by SNA to perform link prediction, we are interested by designing the first link prediction framework adapted for mobile wireless networks as Mobile Ad-hoc Networks (MANETs) and Delay/Disruption Tolerant Networks (DTN). Our proposal tracks the evolution of the network through a third-order tensor over T periods and computes the sociometric Katz measure for each pair of nodes to quantify the strength of the social ties between the network entities. Such quantification gives insights about the links that are expected to occur in the period T+1 and the new links that are created in the future without being observed during the tracking time. To attest the efficiency of our framework, we apply our link prediction technique on three real traces and we compare its performance to the ones of other well-known link prediction approaches. The results prove that our method reaches the highest level of accuracy and outperforms the other techniques. One of the major contributions behind our proposal highlights that the link prediction in such networks can be made in a distributed way. In other words, the nodes can predict their future links relying on the local information (one-hop and two-hop neighbors) instead of a full knowledge about the topology of the network. Furthermore, we are keen to improve the link prediction performance of our tensor-based framework. To quantify the social closeness between the users, we take into consideration two aspects of the relationships: the recentness of the interactions and their frequency. From this perspective, we wonder if we can consider a third criterion to improve the link prediction precision. Asserting the heuristic that stipulates that persistent links are highly predictable, we take into account the stability of the relationships (link and proximity stabilities). To measure it, we opt for the entropy estimation of a time series proposed in the Lempel-Ziv data compression algorithm. As we think that our framework measurements and the stability estimations complement each other, we combine them in order to provide new link prediction metrics. The simulation results emphasize the pertinence of our intuition. Providing a tensor-based link prediction framework and proposing relative enhancements tied to stability considerations represent the main contributions of this thesis. Along the thesis, our concern was also focused on mechanisms and metrics that contribute towards improving communication protocols in these mobile networks […]
|
364 |
Algorithmes de machine learning adaptatifs pour flux de données sujets à des changements de concept / Adaptive machine learning algorithms for data streams subject to concept driftsLoeffel, Pierre-Xavier 04 December 2017 (has links)
Dans cette thèse, nous considérons le problème de la classification supervisée sur un flux de données sujets à des changements de concepts. Afin de pouvoir apprendre dans cet environnement, nous pensons qu’un algorithme d’apprentissage doit combiner plusieurs caractéristiques. Il doit apprendre en ligne, ne pas faire d’hypothèses sur le concept ou sur la nature des changements de concepts et doit être autorisé à s’abstenir de prédire lorsque c’est nécessaire. Les algorithmes en ligne sont un choix évident pour traiter les flux de données. De par leur structure, ils sont capables de continuellement affiner le modèle appris à l’aide des dernières observations reçues. La structure instance based a des propriétés qui la rende particulièrement adaptée pour traiter le problème des flux de données sujet à des changements de concept. En effet, ces algorithmes font très peu d’hypothèses sur la nature du concept qu’ils essaient d’apprendre ce qui leur donne une flexibilité qui les rend capable d’apprendre un vaste éventail de concepts. Une autre force est que stocker certaines des observations passées dans la mémoire peux amener de précieuses meta-informations qui pourront être utilisées par la suite par l’algorithme. Enfin, nous mettons en valeur l’importance de permettre à un algorithme d’apprentissage de s’abstenir de prédire lorsque c’est nécessaire. En effet, les changements de concepts peuvent être la source de beaucoup d’incertitudes et, parfois, l’algorithme peux ne pas avoir suffisamment d’informations pour donner une prédiction fiable. / In this thesis, we investigate the problem of supervised classification on a data stream subject to concept drifts. In order to learn in this environment, we claim that a successful learning algorithm must combine several characteristics. It must be able to learn and adapt continuously, it shouldn’t make any assumption on the nature of the concept or the expected type of drifts and it should be allowed to abstain from prediction when necessary. On-line learning algorithms are the obvious choice to handle data streams. Indeed, their update mechanism allows them to continuously update their learned model by always making use of the latest data. The instance based (IB) structure also has some properties which make it extremely well suited to handle the issue of data streams with drifting concepts. Indeed, IB algorithms make very little assumptions about the nature of the concept they are trying to learn. This grants them a great flexibility which make them likely to be able to learn from a wide range of concepts. Another strength is that storing some of the past observations into memory can bring valuable meta-informations which can be used by an algorithm. Furthermore, the IB structure allows the adaptation process to rely on hard evidences of obsolescence and, by doing so, adaptation to concept changes can happen without the need to explicitly detect the drifts. Finally, in this thesis we stress the importance of allowing the learning algorithm to abstain from prediction in this framework. This is because the drifts can generate a lot of uncertainties and at times, an algorithm might lack the necessary information to accurately predict.
|
365 |
Enhancing and improving voice transmission quality over LTE network : challenges and solutions / Renforcer et améliorer la transmission de la qualité de la voix sur le réseau LTE : défis et solutionsNguyen, Duy Huy 24 February 2017 (has links)
LTE (Long Term Evolution) a été développé et normalisé par le 3GPP (3rd Generation Partnership Project). C’est un réseau à commutation de paquets. Cela signifie que la voix sur LTE (VoLTE) est un service de VoIP avec les exigences de qualité de service garantis au lieu de transmettre dans un réseau à commutation de circuits tels que les systèmes existants (2G/3G). VoLTE est déployé dans un réseau entièrement IP combinée avec IMS (IP Sous-système Multimédia). De ce fait, le déploiement de VoLTE est assez complexe et comment assurer la qualité de transmission de la voix sur les réseaux LTE est un très grand défi. Ainsi, il faut plusieurs solutions différentes pour renforcer et améliorer la qualité de transmission de la voix sur les réseaux LTE. Dans cette thèse, nous présentons des solutions en vue d’améliorer la qualité de transmission de la voix sur les réseaux LTE pour les services audio à bandes étroites et larges. Pour cela, il nous faudra différents facteurs complets en solutions. L’un d’eux est QoE (Qualité de l’Expérience) qui est une nouvelle tendance. Et afin de déterminer la perception des utilisateurs pour le service en temps réel tel que VoLTE, nous utilisons le E-model étendu et le WB (large bande) E-model pour des services audio à bandes étroites et larges respectivement. Les solutions proposées ici portent principalement sur des éléments clés dans les réseaux LTE, tels que le codage par chaine, MAC (Contrôle d’Accès Moyen) des systèmes de planification et la qualité de voix du moniteur décrits comme suit. Tout d’abord, des algorithmes améliorés pour renforcer le codec de la chaine LTE (codeur et décodeur) ont été proposés. Pour améliorer le codeur de chaine LTE, un algorithme d’adaptation conjointe a été déployé. Le but de cet algorithme est de minimiser la redondance générée par codage en chaine avec une légère réduction de la perception de l’utilisateur. Ensuite, afin d’améliorer le décodeur par chaine LTE, un algorithme amélioré Log-MAP a été présenté. Cet algorithme vise à obtenir la performance BER (Bit Error Rate) qui est le plus proche du Log-MAP avec une complexité de calcul réduite par rapport à l’état de l’art. Deuxièmement, la chaine et les systèmes QoS de planification améliorés de la perception de l’utilisateur et du mode de priorité VoIP ont été proposés. Ces planificateurs sont déployés à la fois pour les utilisateurs d’audio à larges et à étroites bandes. Les résultats numériques montrent qu’ils surpassent plusieurs planificateurs en vedette tels que FLS, M-LWDF et EXP/PF en termes de retard, de taux de perte de paquets, de débit cellulaire, d’indice et de l’équité et d’efficacité spectrale dans presque tous les cas. Enfin, pour assurer la qualité vocale de transmission sur le réseau LTE, la prédiction de la satisfaction des utilisateurs est essentielle. Pour cette raison, nous présentons deux modèles non intrusifs pour mesurer la qualité de la voix sur les réseaux LTE. Ces modèles sont utilisés pour les utilisateurs d’audio à bandes étroites et larges bandes. Les modèles proposés ne se réfèrent pas au signal original. Par conséquent, ils sont très appropriés pour prédire la qualité de l’appel vocal sur les réseaux LTE / LTE (Long Term Evolution) has been developed and standardized by 3GPP (3rd Generation Partnership Project). It is a packet-switched network. This means voice over LTE (VoLTE) is a VoIP service with the guaranteed QoS requirements instead of transmitted in a circuit-switched network such as the legacy system (2G/3G). Since VoLTE is deployed in an All-IP network combined with IMS (IP Multimedia Subsytem), thus, the VoLTE deployment is quite complex and how to ensure voice transmission quality over LTE networks is a very big challenge. Therefore, there needs to be many different solutions to enhance and improve voice transmission quality over LTE networks. In this dissertation, we present solutions to enhance and improve voice transmission quality over LTE networks for both narrowband and wideband audio services. In order to do that, there needs to be many different factors complemented in solutions. One of them is QoE (Quality of Experience) which is a new trend. And in order to determine user perception for real-time service such as VoLTE, we use extended E-model and WB (Wideband) E-model for narrowband and wideband audio services, respectively. The proposed solutions in this thesis mainly focus on key elements in LTE networks such as channel coding, MAC (Medium Access Control) scheduling schemes and monitor voice quality described as follows. First, enhanced/improved algorithms for enhancing LTE channel codec (coder and decoder) have been proposed. In order to enhance LTE channel coder, a joint source-channel code rate adaption algorithm has been deployed. The goal of this algorithm is to minimize redundancy generated by channel coding with a slight reduction of user perception. Next, in order to enhance LTE channel decoder, an improved Log-MAP algorithm has been presented. This algorithm aims at obtaining BER performance that is closest to the LOP-MAP with the computational complexity reduced in comparison with state-of-the-art. Second, channel- and QoS-Aware scheduling schemes with the enhancement of user perception and VoIP priority mode have been proposed. These schedulers are deployed for both narrowband and wideband audio users. The numerical results show that they outperform several featured schedulers such as FLS, M-LWDF, and EXP/PF in terms of delay, packet loss rate, cell throughput, fairness index, and spectral efficiency in almost cases. Last, in order to ensure voice transmission quality over LTE network, prediction of user satisfaction is essential. For this reason, we present two object non-intrusive models for measuring voice quality in LTE networks. These models are used for narrowband and wideband audio users. The proposed models do not refer to the original signal, thus, they are very suitable for predicting voice call quality in LTE networks
|
366 |
Analysis of user popularity pattern and engagement prediction in online social networks / Analyse du modèle de popularité de l'utilisateur et de la prédiction d'engagement en les réseaux sociaux en ligneMohammadi, Samin 04 December 2018 (has links)
De nos jours, les médias sociaux ont largement affecté tous les aspects de la vie humaine. Le changement le plus significatif dans le comportement des gens après l'émergence des réseaux sociaux en ligne (OSNs) est leur méthode de communication et sa portée. Avoir plus de connexions sur les OSNs apporte plus d'attention et de visibilité aux gens, où cela s'appelle la popularité sur les médias sociaux. Selon le type de réseau social, la popularité se mesure par le nombre d'adeptes, d'amis, de retweets, de goûts et toutes les autres mesures qui servaient à calculer l'engagement. L'étude du comportement de popularité des utilisateurs et des contenus publiés sur les médias sociaux et la prédiction de leur statut futur sont des axes de recherche importants qui bénéficient à différentes applications telles que les systèmes de recommandation, les réseaux de diffusion de contenu, les campagnes publicitaires, la prévision des résultats des élections, etc. Cette thèse porte sur l'analyse du comportement de popularité des utilisateurs d'OSN et de leurs messages publiés afin, d'une part, d'identifier les tendances de popularité des utilisateurs et des messages et, d'autre part, de prévoir leur popularité future et leur niveau d'engagement pour les messages publiés par les utilisateurs. A cette fin, i) l'évolution de la popularité des utilisateurs de l'ONS est étudiée à l'aide d'un ensemble de données d'utilisateurs professionnels 8K Facebook collectées par un crawler avancé. L'ensemble de données collectées comprend environ 38 millions d'instantanés des valeurs de popularité des utilisateurs et 64 millions de messages publiés sur une période de 4 ans. Le regroupement des séquences temporelles des valeurs de popularité des utilisateurs a permis d'identifier des modèles d'évolution de popularité différents et intéressants. Les grappes identifiées sont caractérisées par l'analyse du secteur d'activité des utilisateurs, appelé catégorie, leur niveau d'activité, ainsi que l'effet des événements externes. Ensuite ii) la thèse porte sur la prédiction de l'engagement des utilisateurs sur les messages publiés par les utilisateurs sur les OSNs. Un nouveau modèle de prédiction est proposé qui tire parti de l'information mutuelle par points (PMI) et prédit la réaction future des utilisateurs aux messages nouvellement publiés. Enfin, iii) le modèle proposé est élargi pour tirer profit de l'apprentissage de la représentation et prévoir l'engagement futur des utilisateurs sur leurs postes respectifs. L'approche de prédiction proposée extrait l'intégration de l'utilisateur de son historique de réaction au lieu d'utiliser les méthodes conventionnelles d'extraction de caractéristiques. La performance du modèle proposé prouve qu'il surpasse les méthodes d'apprentissage conventionnelles disponibles dans la littérature. Les modèles proposés dans cette thèse, non seulement déplacent les modèles de prédiction de réaction vers le haut pour exploiter les fonctions d'apprentissage de la représentation au lieu de celles qui sont faites à la main, mais pourraient également aider les nouvelles agences, les campagnes publicitaires, les fournisseurs de contenu dans les CDN et les systèmes de recommandation à tirer parti de résultats de prédiction plus précis afin d'améliorer leurs services aux utilisateurs / Nowadays, social media has widely affected every aspect of human life. The most significant change in people's behavior after emerging Online Social Networks (OSNs) is their communication method and its range. Having more connections on OSNs brings more attention and visibility to people, where it is called popularity on social media. Depending on the type of social network, popularity is measured by the number of followers, friends, retweets, likes, and all those other metrics that is used to calculate engagement. Studying the popularity behavior of users and published contents on social media and predicting its future status are the important research directions which benefit different applications such as recommender systems, content delivery networks, advertising campaign, election results prediction and so on. This thesis addresses the analysis of popularity behavior of OSN users and their published posts in order to first, identify the popularity trends of users and posts and second, predict their future popularity and engagement level for published posts by users. To this end, i) the popularity evolution of ONS users is studied using a dataset of 8K Facebook professional users collected by an advanced crawler. The collected dataset includes around 38 million snapshots of users' popularity values and 64 million published posts over a period of 4 years. Clustering temporal sequences of users' popularity values led to identifying different and interesting popularity evolution patterns. The identified clusters are characterized by analyzing the users' business sector, called category, their activity level, and also the effect of external events. Then ii) the thesis focuses on the prediction of user engagement on the posts published by users on OSNs. A novel prediction model is proposed which takes advantage of Point-wise Mutual Information (PMI) and predicts users' future reaction to newly published posts. Finally, iii) the proposed model is extended to get benefits of representation learning and predict users' future engagement on each other's posts. The proposed prediction approach extracts user embedding from their reaction history instead of using conventional feature extraction methods. The performance of the proposed model proves that it outperforms conventional learning methods available in the literature. The models proposed in this thesis, not only improves the reaction prediction models to exploit representation learning features instead of hand-crafted features but also could help news agencies, advertising campaigns, content providers in CDNs, and recommender systems to take advantage of more accurate prediction results in order to improve their user services
|
367 |
Simulation de la résistance du tibia de souris avec et sans tumeur osseuse / Simulation of mouse tibia resistance with and without bone tumorDelpuech, Benjamin 26 September 2019 (has links)
Le corps humain (adulte) est composé de 206 os (“Anatomy and Physiology | Simple Book Production” n.d.) qui sont des tissus denses et composent la majeure partie du squelette humain. Le squelette, étant hautement vascularisé, est l’endroit le plus communément affecté par le cancer métastatique (Coleman 1997). L’apparition de ces métastases osseuses fragilise l’os et peut provoquer des fractures pathologiques. Toutefois la prédiction de telles fractures est difficile et loin d’être automatique. Une possibilité pour créer un outil de diagnostic plus performant serait les simulations éléments finis (FEA en anglais pour « Finite Elements Analysis »). Des études ont montré que la FEA spécifique au patient était capable de surpasser l’expertise des cliniciens dans le cas d’étude ex vivo avec défauts osseux induits mécaniquement (dont Derikx et al. 2012). Les recherches portant sur le cancer osseux sont toutefois dur à mettre en place, les échantillons étant rare. De manière à contourner la difficulté de trouver des échantillons humains rarement disponibles, la souris a été utilisé comme modèle squelettique dans plusieurs cas, incluant la tenue mécanique d’os atteint de métastases ex vivo (Mann et al. 2008). Ainsi, de manière à pouvoir étudier l’implication du tissu métastatique dans la résistance globale de l’os sur échantillons réels, nous avons utilisé ce modèle animal pour créer des échantillons tumoraux.Notre but était double : premièrement, quantifier l’apport de la prise en compte des propriétés mécaniques de la métastase dans la résistance globale de l’os. Deuxièmement, statuer sur le fait qu’un modèle plus simple que celui proposé dans la littérature (reposant sur des propriétés purement élastiques plutôt qu’élasto-plastiques (Eggermont et al. 2018) pouvait permettre d’améliorer la prédiction de fractures pathologiques.Tout d’abord, les résultats obtenus avec nos modèles hétérogènes (ne prenant pas en compte la tumeur) ont montré une bonne consistance avec la littérature, la corrélation entre tous les modèles hétérogènes (n=43 pattes) quant à la fracture simulée et expérimentale étant du même ordre de grandeur que celles d’une étude analogue menée sur vertèbres de souris (Nyman et al. 2015). Ensuite, le modèle prenant en compte les propriétés des tumeurs n’as pas permis d’améliorer la prédiction de fracture, au contraire, la moyenne des différences de ces modèles étant de 30±21% (n=11 pattes tumorales) contre 12±9% (n=43 pattes). De plus le modèle spécifique (prenant en compte le module des tumeurs) étant plus difficile à obtenir que le modèle hétérogène (ne nécessitant pas de segmentation entre os et tumeur), le premier ne semble pas être judicieux dans la prédiction de fracture d’os long présentant des lyses osseuses. Enfin, un critère de détection reposant sur la différence entre valeurs de forces ultimes globale et locale a permis de détecter la majorité des instabilités mécaniques constatées dans cette étude (sensibilité de 85% et spécificité de 100%). Un autre critère, basé sur le ratio entre poids des individus et la force ultime locale prédite via FEA a permis de correctement diagnostiquer l’ensemble des cas (100% de sensibilité et de spécificité). Ce résultat pourrait s’avérer être d’une grande aide quant à la prise de décision d’intervention chirurgicale dans le cas d’os long atteints de métastases osseuses. Bien sûr, avant cela la route à parcourir reste longue, ce résultat devant d’abord être confirmé cliniquement (possiblement en ayant recours à l’étude d’un cohorte rétrospective, comme cela a déjà pu être fait dans d’autres études (Eggermont et al. 2018). Cette étude vient d’être initiée dans le cas du projet MEKANOS (étude multicentrique en France) porté par le Professeur Cyrille Confavreux (rhumatologue) / The human body (adult) is composed of 206 bones ("Anatomy and Physiology | Simple Book Production" n.d.) that are dense tissues and make up the bulk of the human skeleton. The skeleton, being highly vascularized, is the most commonly affected site for metastatic cancer (Coleman 1997). The development of these bone metastases weakens the bone and can cause pathological fractures. However, the prediction of such fractures is difficult and far from automatic. One possibility for creating a more powerful diagnostic tool would be finite element simulations (FEA). Studies have shown that patient-specific FEA is able to surpass the expertise of clinicians in the case of ex vivo studies with mechanically induced bone defects (including Derikx et al., 2012). Research on bone cancer, however, is hard to put in place as samples are rare. In order to overcome the difficulty of finding human samples that are rarely available, the mouse has been used as a skeletal model in several cases, including the mechanical resistance of bones with ex vivo metastases (Mann et al., 2008). Thus, in order to study the involvement of metastatic tissue in the overall bone resistance of real samples, we used this animal model to create tumor samples. Our goal was twofold: first, to quantify the contribution of taking into account the mechanical properties of metastasis in the overall resistance of the bone. Secondly, to see if a simpler model than that proposed in the literature (based on purely elastic rather than elastoplastic properties (Eggermont et al., 2018) could improve the prediction of pathological fractures. First, the results obtained with our heterogeneous models (not taking tumor into account) showed a good consistency with the literature, the correlation between all the heterogeneous models (n = 43 legs) regarding the agreement of simulated and experimental fracture were of the same order of magnitude as a similar study conducted on mouse vertebrae (Nyman et al., 2015). Then, the model taking into account the properties of the tumors did not make it possible to improve the fracture prediction. The average of the differences of models taking tumor into account being of 30 ± 21% (n = 11 tumor limbs) against 12 ± 9% (n = 43 limbs). In addition, the specific model (taking into account the modulus of the tumors) being more difficult to obtain than the heterogeneous model (not requiring segmentation between bone and tumor), the first does not seem to be a wise choice in the prediction of long bone fracture presenting bone lysis. Finally, a detection criterion based on the difference between global and local ultimate force values made it possible to detect the majority of the mechanical instabilities observed in this study (sensitivity of 85% and specificity of 100%). Another criterion, based on the ratio between individual weights and the local ultimate force predicted via FEA, made it possible to correctly diagnose all cases (100% sensitivity and specificity). This result could prove to be of great help in making surgical decision making in the case of long bone with bone metastases. Of course, before that, the road ahead is long, this result having to be clinically confirmed first (possibly through the study of a retrospective cohort, as has already been done in other studies (Eggermont et al., 2018). This study has just been initiated in the case of the project MEKANOS (multicenter study in France) led by Professor Cyrille Confavreux (rheumatologist)
|
368 |
Machine Learning for Network Resource Management / Apprentissage Automatique pour la Gestion des Ressources RéseauBen Hassine, Nesrine 06 December 2017 (has links)
Une exploitation intelligente des données qui circulent sur les réseaux pourrait entraîner une amélioration de la qualité d'expérience (QoE) des utilisateurs. Les techniques d'apprentissage automatique offrent des fonctionnalités multiples, ce qui permet d’optimiser l'utilisation des ressources réseau.Dans cette thèse, deux contextes d’application sont étudiés : les réseaux de capteurs sans fil (WSNs) et les réseaux de contenus (CDNs). Dans les WSNs, il s’agit de prédire la qualité des liens sans fil afin d’améliorer la qualité des routes et donc d’augmenter le taux de remise des paquets ce qui améliore la qualité de service offerte à l’utilisateur. Dans les CDNs, il s’agit de prédire la popularité des contenus vidéo afin de mettre en cache les contenus les plus populaires, au plus près des utilisateurs qui les demandent. Ceci contribue à réduire la latence pour satisfaire les requêtes des utilisateurs.Dans ce travail, nous avons orchestré des techniques d’apprentissage issues de deux domaines différents, à savoir les statistiques et le Machine Learning. Chaque technique est représentée par un expert dont les paramètres sont réglés suite à une analyse hors-ligne. Chaque expert est chargé de prédire la prochaine valeur de la métrique. Vu la variété des experts retenus et comme aucun d’entre eux ne domine toujours tous les autres, un deuxième niveau d’expertise est nécessaire pour fournir la meilleure prédiction. Ce deuxième niveau est représenté par un expert particulier, appelé forecaster. Le forecaster est chargé de fournir des prédictions à partir des prédictions fournies par un sous ensemble des meilleurs experts.Plusieurs méthodes d’identification de ce sous ensemble sont étudiées. Elles dépendent de la fonction de perte utilisée pour évaluer les prédictions des experts et du nombre k, représentant les k meilleurs experts. Les tâches d’apprentissage et de prédiction sont effectuées en-ligne sur des data sets réels issus d’un WSN déployé à Stanford et de YouTube pour le CDN. La méthodologie adoptée dans cette thèse s’applique à la prédiction de la prochaine valeur d’une série temporelle.Plus précisément, nous montrons comment dans le contexte WSN, la qualité des liens peut être évaluée par le Link Quality Indicator (LQI) et comment les experts Single Exponential Smoothing (SES) et Average Moving Window (AMW) peuvent prédire la prochaine valeur de LQI. Ces experts réagissent rapidement aux changements des valeurs LQI que ce soit lors d’une brusque baisse de la qualité du lien ou au contraire lors d’une forte augmentation de la qualité. Nous proposons deux forecasters, Exponential Weighted Average (EWA) et Best Expert (BE), et fournissons la combinaison Expert-Forecaster permettant de fournir la meilleure prédiction.Dans le contexte des CDNs, nous évaluons la popularité de chaque contenu vidéo par le nombre journalier de requêtes. Nous utilisons à la fois des experts statistiques (ARMA) et des experts issus du Machine Learning (DES, régression polynômiale). Nous introduisons également des forecasters qui diffèrent par rapport à l’horizon des observations utilisées pour la prédiction, la fonction de perte et le nombre d’experts utilisés. Ces prédictions permettent de décider quels contenus seront placés dans les caches proches des utilisateurs. L’efficacité de la technique de caching basée sur la prédiction de la popularité est évaluée en termes de hit ratio et d’update ratio. Nous mettons en évidence les apports de cette technique de caching par rapport à un algorithme de caching classique, Least Frequently Used (LFU).Cette thèse se termine par des recommandations concernant l’utilisation des techniques d’apprentissage en ligne et hors-ligne pour les réseaux (WSN, CDN). Au niveau des perspectives, nous proposons différentes applications où l’utilisation de ces techniques permettrait d’améliorer la qualité d’expérience des utilisateurs mobiles ou des utilisateurs des réseaux IoT. / An intelligent exploitation of data carried on telecom networks could lead to a very significant improvement in the quality of experience (QoE) for the users. Machine Learning techniques offer multiple operating, which can help optimize the utilization of network resources.In this thesis, two contexts of application of the learning techniques are studied: Wireless Sensor Networks (WSNs) and Content Delivery Networks (CDNs). In WSNs, the question is how to predict the quality of the wireless links in order to improve the quality of the routes and thus increase the packet delivery rate, which enhances the quality of service offered to the user. In CDNs, it is a matter of predicting the popularity of videos in order to cache the most popular ones as close as possible to the users who request them, thereby reducing latency to fulfill user requests.In this work, we have drawn upon learning techniques from two different domains, namely statistics and Machine Learning. Each learning technique is represented by an expert whose parameters are tuned after an off-line analysis. Each expert is responsible for predicting the next metric value (i.e. popularity for videos in CDNs, quality of the wireless link for WSNs). The accuracy of the prediction is evaluated by a loss function, which must be minimized. Given the variety of experts selected, and since none of them always takes precedence over all the others, a second level of expertise is needed to provide the best prediction (the one that is the closest to the real value and thus minimizes a loss function). This second level is represented by a special expert, called a forecaster. The forecaster provides predictions based on values predicted by a subset of the best experts.Several methods are studied to identify this subset of best experts. They are based on the loss functions used to evaluate the experts' predictions and the value k, representing the k best experts. The learning and prediction tasks are performed on-line on real data sets from a real WSN deployed at Stanford, and from YouTube for the CDN. The methodology adopted in this thesis is applied to predicting the next value in a series of values.More precisely, we show how the quality of the links can be evaluated by the Link Quality Indicator (LQI) in the WSN context and how the Single Exponential Smoothing (SES) and Average Moving Window (AMW) experts can predict the next LQI value. These experts react quickly to changes in LQI values, whether it be a sudden drop in the quality of the link or a sharp increase in quality. We propose two forecasters, Exponential Weighted Average (EWA) and Best Expert (BE), as well as the Expert-Forecaster combination to provide better predictions.In the context of CDNs, we evaluate the popularity of each video by the number of requests for this video per day. We use both statistical experts (ARMA) and experts from the Machine Learning domain (e.g. DES, polynomial regression). These experts are evaluated according to different loss functions. We also introduce forecasters that differ in terms of the observation horizon used for prediction, loss function and number of experts selected for predictions. These predictions help decide which videos will be placed in the caches close to the users. The efficiency of the caching technique based on popularity prediction is evaluated in terms of hit rate and update rate. We highlight the contributions of this caching technique compared to a classical caching algorithm, Least Frequently Used (LFU).This thesis ends with recommendations for the use of online and offline learning techniques for networks (WSN, CDN). As perspectives, we propose different applications where the use of these techniques would improve the quality of experience for mobile users (cellular networks) or users of IoT (Internet of Things) networks, based, for instance, on Time Slotted Channel Hopping (TSCH).
|
369 |
Mécanismes chimiques virtuels optimisés pour la prédiction des polluants dans des flammes turbulentes / Virtual chemical mechanisms optimized to capture pollutant formation in turbulent flamesCailler, Mélody 08 October 2018 (has links)
La nature conflictuelle des contraintes de performances, d'opérabilité et de respect des normes environnementales conduit les motoristes à optimiser finement la géométrie du brûleur afin d'identifier le meilleur design.La Simulation aux Grande Echelles (SGE) est aujourd'hui un outil performant et est déployé de manière courante dans les Bureaux d'Etudes pour la prédiction des propriétés macroscopiques de l'écoulement.Toutefois, de nombreux phénomènes influencés par les effets de chimie complexe, tels que la stabilisation, l'extinction de flamme et la formation des polluants, reste un problème crucial.En effet, la description des effets de chimie complexe nécessite l'utilisation de modèles cinétiques détaillés imposant des coûts de calculs prohibitifs, des problèmes de raideurs numérique et des difficultés de couplage avec les échelles non résolues turbulentes.Afin d'inclure une description des processus chimiques, dans les simulations numériques de chambres de combustion réelles, des modèles réduits doivent être proposés.Dans cette thèse, une méthode originale, appelée chimie virtuelle optimisée, est développée.Cette stratégie a pour objectif la description de la structure chimique de la flamme et la formation des polluants dans des configurations de flamme représentatives.Les schémas cinétiques virtuels optimisés, composés de réactions virtuelles et d'espèces virtuelles, sont construits par optimisation des paramètres réactionnels et des propriétés thermochimiques des espèces virtuelles afin de capturer les propriétés de flamme d'intérêt. / The conflicting nature of performance, operability and environmental constraints leads engine manufacturers to perform a fine optimization of the burner geometry to find the best design compromise.Large Eddy Simulation (LES) is an attractive tool to achieve this challenging task, and is routinely used in design office to capture macroscopic flow features.However, the prediction of phenomena influenced by complex kinetic effects, such as flame stabilization, extinction and pollutant formation, is still a crucial issue.Indeed, the comprehensive description of combustion chemistry effects requires the use of detailed models imposing prohibitive computational costs, numerical stiffness and difficulties related to model the coupling with unresolved turbulent scales.Reduced-cost chemistry description strategies must then be proposed to account for kinetic effects in LES of real combustion chambers.In this thesis an original modeling approach, called virtual optimized chemistry, is developed.This strategy aims at describing the chemical flame structure and pollutant formation in relevant flame configurations, at a low computational cost.Virtual optimized kinetic schemes, composed by virtual reactions and virtual species, are built through optimization of both kinetic rate parameters and virtual species thermo-chemical properties so as to capture reference target flame quantity.
|
370 |
Inference attacks on geolocated data / Attaques d'inférence sur des bases de données géolocaliséesNuñez del Prado Cortez, Miguel 12 December 2013 (has links)
Au cours des dernières années, nous avons observé le développement de dispositifs connectéset nomades tels que les téléphones mobiles, tablettes ou même les ordinateurs portablespermettant aux gens d’utiliser dans leur quotidien des services géolocalisés qui sont personnalisésd’après leur position. Néanmoins, les services géolocalisés présentent des risques enterme de vie privée qui ne sont pas forcément perçus par les utilisateurs. Dans cette thèse,nous nous intéressons à comprendre les risques en terme de vie privée liés à la disséminationet collection de données de localisation. Dans ce but, les attaques par inférence que nousavons développé sont l’extraction des points d’intérêts, la prédiction de la prochaine localisationainsi que la désanonymisation de traces de mobilité, grâce à un modèle de mobilité quenous avons appelé les chaînes de Markov de mobilité. Ensuite, nous avons établi un classementdes attaques d’inférence dans le contexte de la géolocalisation se basant sur les objectifsde l’adversaire. De plus, nous avons évalué l’impact de certaines mesures d’assainissement àprémunir l’efficacité de certaines attaques par inférence. En fin nous avons élaboré une plateformeappelé GEoPrivacy Enhanced TOolkit (GEPETO) qui permet de tester les attaques parinférences développées. / In recent years, we have observed the development of connected and nomad devices suchas smartphones, tablets or even laptops allowing individuals to use location-based services(LBSs), which personalize the service they offer according to the positions of users, on a dailybasis. Nonetheless, LBSs raise serious privacy issues, which are often not perceived by the endusers. In this thesis, we are interested in the understanding of the privacy risks related to thedissemination and collection of location data. To address this issue, we developed inferenceattacks such as the extraction of points of interest (POI) and their semantics, the predictionof the next location as well as the de-anonymization of mobility traces, based on a mobilitymodel that we have coined as mobility Markov chain. Afterwards, we proposed a classificationof inference attacks in the context of location data based on the objectives of the adversary.In addition, we evaluated the effectiveness of some sanitization measures in limiting the efficiencyof inference attacks. Finally, we have developed a generic platform called GEPETO (forGEoPrivacy Enhancing Toolkit) that can be used to test the developed inference attacks
|
Page generated in 0.1004 seconds