• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 226
  • 86
  • 23
  • 1
  • Tagged with
  • 328
  • 174
  • 60
  • 43
  • 27
  • 21
  • 20
  • 20
  • 20
  • 19
  • 19
  • 17
  • 17
  • 17
  • 16
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
151

Contributions à l’agrégation séquentielle robuste d’experts : Travaux sur l’erreur d’approximation et la prévision en loi. Applications à la prévision pour les marchés de l’énergie. / Contributions to online robust aggregation : work on the approximation error and on probabilistic forecasting. Applications to forecasting for energy markets.

Gaillard, Pierre 06 July 2015 (has links)
Nous nous intéressons à prévoir séquentiellement une suite arbitraire d'observations. À chaque instant, des experts nous proposent des prévisions de la prochaine observation. Nous formons alors notre prévision en mélangeant celles des experts. C'est le cadre de l'agrégation séquentielle d'experts. L'objectif est d'assurer un faible regret cumulé. En d'autres mots, nous souhaitons que notre perte cumulée ne dépasse pas trop celle du meilleur expert sur le long terme. Nous cherchons des garanties très robustes~: aucune hypothèse stochastique sur la suite d'observations à prévoir n'est faite. Celle-ci est supposée arbitraire et nous souhaitons des garanties qui soient vérifiées quoi qu'il arrive. Un premier objectif de ce travail est l'amélioration de la performance des prévisions. Plusieurs possibilités sont proposées. Un exemple est la création d'algorithmes adaptatifs qui cherchent à s'adapter automatiquement à la difficulté de la suite à prévoir. Un autre repose sur la création de nouveaux experts à inclure au mélange pour apporter de la diversité dans l'ensemble d'experts. Un deuxième objectif de la thèse est d'assortir les prévisions d'une mesure d'incertitude, voire de prévoir des lois. Les applications pratiques sont nombreuses. En effet, très peu d'hypothèses sont faites sur les données. Le côté séquentiel permet entre autres de traiter de grands ensembles de données. Nous considérons dans cette thèse divers jeux de données du monde de l'énergie (consommation électrique, prix de l'électricité,...) pour montrer l'universalité de l'approche. / We are interested in online forecasting of an arbitrary sequence of observations. At each time step, some experts provide predictions of the next observation. Then, we form our prediction by combining the expert forecasts. This is the setting of online robust aggregation of experts. The goal is to ensure a small cumulative regret. In other words, we want that our cumulative loss does not exceed too much the one of the best expert. We are looking for worst-case guarantees: no stochastic assumption on the data to be predicted is made. The sequence of observations is arbitrary. A first objective of this work is to improve the prediction accuracy. We investigate several possibilities. An example is to design fully automatic procedures that can exploit simplicity of the data whenever it is present. Another example relies on working on the expert set so as to improve its diversity. A second objective of this work is to produce probabilistic predictions. We are interested in coupling the point prediction with a measure of uncertainty (i.e., interval forecasts,…). The real world applications of the above setting are multiple. Indeed, very few assumptions are made on the data. Besides, online learning that deals with data sequentially is crucial to process big data sets in real time. In this thesis, we carry out for EDF several empirical studies of energy data sets and we achieve good forecasting performance.
152

Chaperons moléculaires et tauopathies : effets de Hsp90 sur la fibrillation in vitro du peptide VQIVYK issu de la protéine tau / Molecular chaperones and tauopathies : Hsp90's effect on fibrillation in vitro of VQIVYK the tau-derived peptide

Schirmer, Claire 15 December 2014 (has links)
Les maladies dites ''conformationnelles'' sont caractérisées par un mauvais repliement des protéines qui, de ce fait, ne peuvent plus assurer leur fonction biologique. C'est le cas des amyloses, ces pathologies impliquent des protéines ayant la capacité de s'agréger pour former des structures spécifiques appelées « fibres amyloïdes ». Aujourd'hui, une trentaine de protéines humaines sont connues pour former ce type de fibres et notamment la protéine tau. Celle-ci est associée à plusieurs maladies neurodégénératives, regroupées sous le terme de « tauopathies », incluant la maladie d'Alzheimer. En conditions physiologiques, tau est associée aux microtubules et régule leur polymérisation. Dans les tauopathies, elle devient hyperphosphorylée et s'agrège dans les neurones sous forme de neurodégénérescences fibrillaires (NFTs) toxiques. Les protéines chaperons et particulièrement la protéine de choc thermique de 90 kDa, Hsp90, régule l'homéostasie de la protéine tau. L'interaction entre tau et Hsp90 implique différentes régions de la protéine tau dont celle contenant un hexapeptide de séquence VQIVYK. Ce court fragment est nécessaire et suffisant pour induire la fibrillation de la protéine tau entière in vivo. Cet hexapeptide est également capable, à lui seul, de former des fibres amyloïdes, in vitro, comparables à celles retrouvées in vivo. Nous avons donc choisi d'utiliser l'hexapeptide VQIVYK comme modèle d'étude de la fibrillation, in vitro, et testé l'effet de Hsp90 sur les processus agrégatifs du peptide. Nous avons démontré que Hsp90 interagit spécifiquement avec les structures amyloïdes formées par le peptide et qu'elle est capable d'inhiber à la fois la polymérisation et la dépolymérisation des fibres. Ce rôle antagoniste joué par Hsp90 permet la stabilisation d'espèces amyloïdes intermédiaires supposées moins neurotoxiques. Ces résultats confirment l'implication de Hsp90 dans les processus agrégatifs de la protéine tau et ouvrent de nouvelles perspectives thérapeutiques contre les pathologies neurodégénératives. De plus, cette étude apporte des éléments de réponse sur le fonctionnement des chaperons moléculaires vis-à-vis de leur protéine cliente. / Conformational diseases are characterized by protein misfolding which causes a loss of biological activity. Amyloidosis is one of these diseases, and it involves the ability of proteins to self-aggregate into specific structures called “amyloid fibers”. At least thirty human proteins, including tau, are known to form amyloid fibers. The tau protein is linked to several neurodegenerative diseases called tauopathies, including Alzheimer’s disease. Tau is in physiological conditions associated with microtubules and regulates their polymerization. In tauopathies, tau becomes hyper-phosphorylated and aggregates into neurotoxic neurofibrillary tangles (NFTs). Molecular chaperones, and particularly the 90-kDa heat shock protein (Hsp90), regulate tau homeostasis. The interaction between tau and Hsp90 involves several tau regions including the sequence VQIVYK. This short fragment is necessary and sufficient on its own to induce aggregation of the full tau protein in vivo. In vitro this hexapeptide is also able to form amyloid fibers similar to those found in vivo. We therefore used this hexapeptide as an in vitro model to study the process of amyloid fibrillation and to test Hsp90’s effects on it. We demonstrated that Hsp90 interacts specifically with peptide fibrillar structures and that Hsp90 is able to inhibit both the polymerization and depolymerization processes. This antagonistic role for Hsp90 allows the stabilization of intermediate amyloid species that may display a lower neurotoxicity. These results confirm that Hsp90 is involved in tau’s aggregation process and paves the way for new therapeutic perspectives in neurodegenerative diseases. Our study also provides clues to the understanding of how molecular chaperones assist in the folding of their client proteins.
153

Étude Raman des alliages (Ge,Si), (Zn,Be)Se et Zn(Se,S) via le modèle de percolation : agrégation vs. dispersion et phonon-polaritons / Raman study of the (Ge,Si) (Zn,Be)Se and Zn(Se,S) alloys within the percolation model : clustering vs. anticlustering and phonon-polaritons

Hajj Hussein, Rami 07 July 2014 (has links)
Les tenants et aboutissants du modèle phénoménologique de percolation (multi-mode par liaison) développé sur site pour la compréhension de base des spectres de vibration Raman et infrarouges des alliages semi-conducteurs de structure zincblende (II-VI et III-V) et diamant (IV-IV) sont explorés plus avant dans des registres novateurs avec les systèmes Ge1-xSix (diamant), Zn1-xBexSe (zincblende) et ZnSe1-xSx (zincblende). La version du modèle de percolation élaborée pour l’alliage GeSi de structure diamant (3 liaisons, 6 modes/phonons), plus élaborée que la version standard originellement développée pour les alliages zincblende (2 liaisons, 3 phonons), est utilisée comme version modèle pour formaliser à travers l’introduction d’un paramètre d’ordre k ad hoc, une aptitude intrinsèque des spectres de vibration, révélée par le modèle de percolation, à ‘mesurer’ la nature du désordre d’alliage, en termes de substitution aléatoire, ségrégation locale ou dispersion locale. L’alliage de percolation Zn0.67Be0.33Se est utilisé comme système modèle pour étudier, à l’aide d’un montage inhabituel de diffusion Raman en avant, la dispersion des phonons transverses optique au tout proche voisinage du centre tau de la zone de Brillouin. A cette limite, ces modes acquièrent un champ électrique semblable à celui d’une onde électromagnétique pure, i.e. un photon, et se voient désignés sous la terminologie de phonon-polaritons. Une spécificité inexplorée des phonon-polariton d’alliage, à savoir leur renforcement à l’approche de tau, est étudiée plus avant avec les alliages Zn0.47Be0.53Se et ZnSe0.68S0.32, et effectivement observée avec le second alliage. Une étude infrarouge a récemment révélé dans la littérature un comportement vibrationnel multi-mode déconcertant pour la liaison courte (Zn-S) de l’alliage ZnSeS. Nous montrons que ce comportement peut être expliqué dans le cadre d’une version généralisée du modèle de percolation, plus élaborée que la version standard, qui prend en compte l’effet de la dispersion phonon en plus de l’effet de la contrainte locale. Par ailleurs l’étude fine du comportement phonon-polariton de la liaison longue (Zn-Se) de l’alliage représentatif ZnSe0.68S0.32 par diffusion Raman en avant révèle un comportement bimodal insoupçonné, qui fait écho à celui de la liaison courte (Zn-S). Cela établit expérimentalement que le schéma de percolation (multi-phonon par liaison) est générique et s’applique à toutes les liaisons d’un alliage donné, en principe. Enfin, nous explorons le comportement du doublet Zn-S de l’alliage ZnSeS à l’approche de la transition de phase zincblende->rocksalt (~14 GPa) par diffusion Raman en avant sous pression, i.e. dans le régime phonon-polariton. Le mode Zn-S basse fréquence s’affaiblit et converge vers le mode haute fréquence sous pression, comme observé plus tôt en rétrodiffusion pour le doublet Be-Se de l’alliage ZnBeSe. Il semble s’agir d’un comportement intrinsèque du doublet de percolation pour la transition de phase considérée, celui-ci reflèterait une sensibilité aux instabilités locales des liaisons hôtes (Zn-Se) à l’approche de leur transition de phase naturelle, caractéristiques composé pur (ZnSe). Ces comportements sont discutés sur la base d’une modélisation des spectres Raman enregistrés pour des processus de diffusion en arrière (géométrie usuelle) et en avant (en fonction de l’angle de diffusion) dans le cadre du formalisme de la réponse diélectrique linéaire. L’attribution des modes Raman est réalisée via des calculs ab initio (code SIESTA) menés sur site avec des motifs d’impureté prototypes. Les prédictions du modèle de percolation concernant la dépendance du spectre Raman de GeSi vs. k sont confrontées à un calcul ab initio direct des spectres Raman (code AIMPRO), mené en collaboration à partir de supercellules couvrant une série représentative de valeurs de k / The ins and outs of the phenomenological percolation model (multi-mode per bond) developed by the team for the basic understanding of the Raman and infrared spectra of semiconductor alloys with zincblende (II-VI & III-V) and diamond (IV-IV) structure are further explored in novel areas with the Ge1-xSix (diamant), Zn1-xBexSe (zincblende) and ZnSe1-xSx (zincblende) alloys. The version of the percolation worked out for the GeSi diamond alloy (3 bonds, 6 modes/phonons), more refined than the current one for zincblende alloys (2 bonds, 3 phonons), is used as a model version to formalize, via the introduction of a relevant order parameter k, an intrinsic ability behind the vibration spectra, to ‘measure’ the nature of the alloy disorder, as to whether this reflects a random substitution, or a trend towards local clustering or local anticlustering. The percolation-type Zn0.67Be0.33Se alloy is used as a model system to study, by using an unconventional Raman setup corresponding to forward scattering, the dispersion of the transverse optic phonons on approaching of tau, the centre of the Brillouin zone. At this limit such modes become equipped with a macroscopic electric field similar in every point to that carried by a pure electromagnetic wave, namely a photon, being then identified as phonon-polaritons. A specificity of the alloy-related phonon-polaritons, namely their reinforcement approaching of tau ,unexplored so far, is further investigated experimentally with the Zn0.47Be0.53Se et ZnSe0.68S0.32 alloys, selected on purpose, and was indeed confirmed in the latter alloy. A recent infrared study of ZnSeS in the literature has revealed a disconcerting multi-phonon pattern for its shorter bond species (Zn-S). We show that such pattern can be explained within a generalized version of the percolation scheme, a more sophisticated one than the standard version, taking into account the effect of the phonon dispersion in addition to the effect of the local strain. Besides, a refined study of the phonon-polariton regime related to the long Zn-Se bond reveals an unsuspected bimodal pattern, which echoes that earlier evidenced for the short (Zn-S) species. This establishes on an experimental basis that the percolation scheme (multi-phonon per bond) is generic and applies as well to any bond species in an alloy, in principle. Last, we explore the behavior of the Zn-S doublet of ZnSeS at the approach of the zincblende->rocksalt (~14 GPa) transition, by near-forward Raman scattering under pressure, i.e. in the phonon-polariton regime. The low-frequency Zn-S mode appears to weakens and converges onto the high-frequency Zn-S mode under pressure, as earlier observed for the Be-Se doublet of ZnBeSe in backscattering. Such behavior seems to be intrinsic to the percolation-type doublet for the considered structural phase transition. This would reflect a sensitivity to the local instabilities of the host bonds (Zn-Se) at the approach of their natural structure phase transitions characteristic of the related pure compound (ZnSe). The above mentioned behaviors are discussed on the basis of a detailed contour modeling of the Raman spectra taken in backscattering (usual geometry) and forward scattering (depending on the scattering angle then) within the scope of the linear dielectric response. The assignment of the Raman modes is achieved via ab initio phonon calculations done within the SIESTA code using prototype impurity motifs. The predictions of the percolation scheme concerning the k-dependence of the GeSi Raman spectra are confronted with direct ab initio calculations of the GeSi Raman spectra done in collaboration (with V.J.B. Torres) using the AIMPRO code on supercells covering a selection of representative k values
154

La signalisation du Brain-Derived Neurotrophic Factor et ses récepteurs dans les plaquettes

Boukhatem, Imane 04 1900 (has links)
Initialement découvert au cerveau, le Brain-derived neutrophic factor (BDNF) est un facteur de croissance dont les mécanismes de relâche et la signalisation ont été bien étudiés dans le système nerveux central. Il est aussi retrouvé en concentrations importantes dans la circulation où il est emmagasiné dans les plaquettes avec des niveaux pouvant atteindre 100 à 1000 fois ceux des neurones. Malgré l’abondance du BDNF dans les plaquettes, sa fonction dans la physiologie plaquettaire n’a jamais été étudiée. Le but de ce projet était donc d’investiguer le rôle du BDNF dans la fonction plaquettaire et les mécanismes de signalisation impliqués dans la réponse plaquettaire au BDNF. Lorsque les plaquettes sont isolées et re-suspendues dans un tampon physiologique dépourvu de protéines plasmatiques, le BDNF induit une agrégation plaquettaire complète et biphasique qui dépend des voies secondaires de l’agrégation. La neurotrophine NT4 ainsi qu’un anticorps activateur du récepteur TrkB ont tous les deux induit une agrégation plaquettaire similaire à celle du BDNF suggérant un récepteur commun, le TrkB. Par immunobuvardage, cytométrie en flux et microscopie électronique, nous avons pu confirmer que les plaquettes expriment une forme tronquée du récepteur TrkB, au niveau intracellulaire et à leur surface. Les tests fonctionnels nous ont mené à impliquer les voies de rhoGTPase Rac1, la protéine kinase C (PKC) et la voie phosphoinositide 3-kinase (PI3K)/Akt dans l’agrégation plaquettaire induite par le BDNF. Une fois activées par le BDNF, les plaquettes relâchent plusieurs cytokines proinflammatoires et proangiogéniques qui peuvent jouer un rôle important dans le maintien et la réparation de l’intégrité vasculaire. Parmi les agents relâchés, on retrouve des facteurs de croissances comme le PDGF et le VEGF, mais aussi des chimiokines comme l’IL8 et ENA-78. Finalement, lorsque les expériences d’agrégation ont été répétées en plasma riche en plaquettes, l’effet pro-agrégant du BDNF était perdu, possiblement via une liaison de BDNF avec la protéine plasmatique α2-macroglobuline (α2M). Cette liaison à α2M, suggérée par des expériences de co-immunoprécipitation, réduit la biodisponibilité du BDNF et pourrait aider à contenir la réponse plaquettaire au BDNF aux sites de lésions vasculaires. / The Brain-Derived Neutrophic Factor (BDNF) is a growth factor that was initially discovered in the brain. BDNF has both an autocrine and a paracrine role in neurons and its release and signaling mechanisms have been extensively studied in the central nervous system. Surprisingly, large quantities of BDNF have been reported in circulation, where it is essentially stored in platelets with concentrations reaching 100-1000-fold those of neurons. Despite this abundance, the function of BDNF in platelet biology has not been explored. Thus, this project sought to investigate the effect of BDNF on platelet function and the mechanisms underlying platelet responses to BDNF. In washed platelets, BDNF induced complete biphasic platelet aggregation that in part relied on amplification from secondary mediators. The low-affinity agonist neurotrophin-4 and an activating antibody raised against the canonical BDNF receptor TrkB induced similar platelet responses, implicating TrkB. Platelets express, both at their surface and in their intracellular compartment, a truncated form of TrkB lacking a tyrosine kinase domain. The BDNF-induced aggregation of washed platelets was prevented by inhibitors of the Rac1, PKC, and PI3K/Akt. Platelets exposed to BDNF secreted pro-angiogenic and pro-inflammatory cytokines, which may play a role in maintaining vascular homeostasis. Finally, in platelet-rich plasma, exogenous BDNF failed to induce aggregation and BDNF immunoprecipitates contained α2-macroglobulin immunoreactivity. Hence, platelets are rich in BDNF, which induce platelet aggregation via TrkB activation. The restriction of BDNF bioavailablility by plasma protein binding may serve to target BDNF-mediated platelet activation to sites of vascular injury.
155

Modulation of Alzheimer's disease amyloid beta peptide aggregation by molecular chaperones, polyphosphates and metal ions, and their interplay / Modulation de l’agrégation du peptide amyloid beta de la maladie d’alzheimer par des chaperons moléculaires, polyphosphates et ions métalliques, et leur interaction

Ayala Mariscal, Sara Maria 12 January 2018 (has links)
La maladie d'Alzheimer est la démence la plus répandue dans le monde. Le nombre de cas augmente de manière exponentielle et il est donc important de comprendre les mécanismes moléculaires donnant lieu à cette terrible maladie. Une des hypothèses les plus supportées est celle suggérant que la production et dégradation déséquilibrées de l'amyloïde-beta (Aß), un peptide de 42 acides aminés trouvé dans tous les individus sains, est un événement clé dans le déroulement de la maladie d'Alzheimer. En effet, une production accrue ou une dégradation faible du peptide ont pour conséquence son agrégation et accumulation dans des plaques de fibres entre les neurones des régions spécifiques du cerveau. C'est pourquoi la modulation de l'agrégation du peptide Aß est une des approches envisageables pour modifier l'évolution de la maladie d'Alzheimer. Les protéines chaperons dont une des fonctions est d'assister d'autres protéines dans leur repliement, sont parmi les molécules les plus étudiées pour leur capacité modulatrice de l'agrégation des protéines (inclus le peptide Aß). Plusieurs chaperons ont montré la capacité d'inhiber la formation des fibres par l'Aß. Cependant, du fait que les chaperons sont des molécules conservées et peu spécifiques, leur surexpression ou administration directe peut avoir des conséquences négatives si les chaperons interagissent avec des protéines autres que la protéine cible. Dans ce travail, nous nous sommes intéressés à une protéine chaperon bactérienne possédant une forte activité " holdase " (i.e., elle empêche le repliement précoce des protéines) comme possible modulateur de l'agrégation du peptide Aß. Le chaperon sauvage a une très faible capacité d'inhibition de la formation de fibres par le peptide Aß. Cependant, nous avons démontré qu'en modifiant légèrement la surface de liaison du chaperon, la protéine devient un puissant inhibiteur de l'agrégation d'Aß. En parallèle, nous nous sommes intéressés à l'influence des ions métalliques sur l'agrégation du peptide Aß. [...] / Alzheimer's disease is the most frequent type of dementia. With an exponentially growing number of cases, understanding the underlying molecular events leading to this devastating condition is of crucial importance. Much evidence points to a disequilibrium in the production and degradation of amyloid beta (Aß), a normally physiological 42 amino acid peptide, as an early key event in Alzheimer's etiology. Whether Aß is overproduced or poorly degraded, the overall result is an abnormally large pool of peptide that gradually aggregates forming extracellular deposits of fibrils, called amyloid plaques, in specific brain regions. Hence, modulation of Aß aggregation process is one of the suggested approaches to control the evolution of Alzheimer's disease. Universally conserved molecular chaperones have been intensively studied for their capacity to prevent aggregation of disease-related proteins, and many of them have proven to efficiently modulate Alzheimer's Aß aggregation. In a scenario where chaperones are overexpressed or directly administered into the affected tissue, the universal conservation and the relatively poor client-specificity of generic chaperones can become a downside because of the risk of interaction with proteins other than the targeted one is not dismissible, and thus the consequences unpredictable. In the first part of this work, we looked upon a bacterial chaperone call SecB with an unusually robust holdase activity (i.e. it prevents early protein folding) as a promising modulator of Alzheimer's Aß peptide aggregation. [...]
156

Agrégation et routage efficace de données dans les réseaux de capteurs sans fils / Efficient data aggregation and routing in wireless sensor networks

Fotue Fotso, David Bertrand 04 October 2013 (has links)
Les Réseaux de Capteurs Sans Fils (RCSFs) ont pris beaucoup d'importance dans plusieurs domaines tels que l'industrie, l'armée, la pollution atmosphérique etc. Les capteurs sont alimentés par des batteries qui ne sont pas faciles à remplacer surtout dans les environnements peu accessibles. L'énergie de chaque capteur est considérée comme la source première d'augmentation de la durée de vie des RCSFs. Puisque la transmission de données est plus coûteuse en consommation d'énergie, notre préoccupation première est de proposer une technique efficace de transmission des données de tous les capteurs vers le sink tout en réduisant la consommation en énergie. Nous suggérons trois trois algorithmes d'agrégation de données basé sur la construction d'arbres : Depth-First Search Aggregation (DFSA), Flooding Aggregation (FA) et Well-Connected Dominating Set Aggregation (WCDSA) qui permettront de réduire le nombre de transmissions de chaque capteur vers le sink. L'agrégation des données basée sur la construction d'arbres souffre du délai de délivrance de données parce que les parents doivent attendre de recevoir les données de leurs feuilles. Certains parents pourraient avoir beaucoup de feuilles, et il serait alors assez coûteux pour un parent de stocker toutes les données entrantes dans sa mémoire. Ainsi, nous devons déterminer le temps que chaque parent doit mettre pour agréger et traiter les données de ses feuilles. Nous proposons un algorithme, Efficient Tree-based Aggregation and Processing Time (ETAPT) qui utilise la métrique Appropriate Data Aggregation and Processing Time (ADAPT). Etant donné la durée maximale acceptable, l'algorithme ETAPT prend en compte la position des parents, le nombre de feuilles et la profondeur de l'arbre pour calculer l'ADAPT optimal. A n'importe quel moment pendant l'agrégation des données par les parents, il peut arriver que la quantité de données collectées soit très grande et dépasse la quantité de stockage maximale de données que peut contenir leurs mémoires. Nous proposons l'introduction dans le réseau de plusieurs collecteurs de données appelés Mini-Sinks (MSs). Ces MSs sont mobiles et se déplacent selon un modèle de mobilité aléatoire dans le réseau pour maintenir la connexité afin d'assurer la collecte contrôlée des données basée sur le protocole de routage Mulipath Energy Conserving Routing Protocol (MECRP). Les capteurs peuvent être équipés de plusieurs interfaces radios partageant un seul canal sans fil avec lequel ils peuvent communiquer avec plusieurs voisins. La transmission des données à travers une liaison de communication entre deux parents peut interférer avec les transmissions d'autres liaisons si elles transmettent à travers le même canal. Nous avons besoin de savoir quel canal utiliser en présence de plusieurs canaux pour une transmission donnée. Nous proposons une méthode distribuée appelée: Well Connected Dominating Set Channel Assignement (WCDS-CA), pour calculer le nombre de canaux qui seront alloués à tous les capteurs de telle sorte que les capteurs adjacents se voient attribués des canaux différents / Wireless Sensor Networks (WSNs) have gained much attention in a large range of technical fields such as industrial, military, environmental monitoring etc. Sensors are powered by batteries, which are not easy to replace in harsh environments. The energy stored by each sensor is the greatest impediment for increasing WSN lifetime. Since data transmission consumes more energy, our major concern is how to efficiently transmit the data from all sensors towards a sink. We suggest three tree-based data aggregation algorithms: Depth-First Search Aggregation (DFSA), Flooding Aggregation (FA) and Well-Connected Dominating Set Aggregation (WCDSA) to reduce the number of transmissions from each sensor towards the sink. Tree-based data aggregation suffers from increased data delivery time because the parents must wait for the data from their leaves. Some parents might have many leaves, making it very expensive for a parent to store all incoming data in its buffer. We need to determine the aggregation time each parent in the tree has to spend in aggregating and processing the data from its leaves. We propose an Efficient Tree-based Aggregation and Processing Time (ETAPT) algorithm using Appropriate Data Aggregation and Processing Time (ADAPT) metric. Given the maximum acceptable latency, ETAPT's algorithm takes into account the position of parents, their number of leaves and the depth of the tree, in order to compute an optimal ADAPT time. At any time, the amount of data aggregated by parents may become greater than the amount of data that can be forwarded. We propose the introduction into the network of many data aggregators called Mini-Sinks (MSs). MSs are mobile and move according to a random mobility model inside the sensor field to maintain the fully-connected network in order to aggregate the data based on the controlled Multipath Energy Conserving Routing Protocol (MECRP). Sensors may use many radio interfaces sharing a single wireless channel, which they may use to communicate with several neighbours. Two sensors operating on the same wireless channel may interfere with each other during the transmission of data. We need to know which channel to use in the presence of multiple channels for a given transmission. We propose a distributed Well-Connected Dominating Set Channel Assignment (WCDS-CA) approach, in which the number of channels that are needed over all sensor nodes in the network in such a way that adjacent sensor nodes are assigned to distinct channels.
157

On unsupervised learning in high dimension / Sur l'apprentissage non supervisé en haute dimension

Sebbar, Mehdi 12 December 2017 (has links)
Dans ce mémoire de thèse, nous abordons deux thèmes, le clustering en haute dimension d'une part et l'estimation de densités de mélange d'autre part. Le premier chapitre est une introduction au clustering. Nous y présentons différentes méthodes répandues et nous nous concentrons sur un des principaux modèles de notre travail qui est le mélange de Gaussiennes. Nous abordons aussi les problèmes inhérents à l'estimation en haute dimension et la difficulté d'estimer le nombre de clusters. Nous exposons brièvement ici les notions abordées dans ce manuscrit. Considérons une loi mélange de K Gaussiennes dans R^p. Une des approches courantes pour estimer les paramètres du mélange est d'utiliser l'estimateur du maximum de vraisemblance. Ce problème n'étant pas convexe, on ne peut garantir la convergence des méthodes classiques. Cependant, en exploitant la biconvexité de la log-vraisemblance négative, on peut utiliser la procédure itérative 'Expectation-Maximization' (EM). Malheureusement, cette méthode n'est pas bien adaptée pour relever les défis posés par la grande dimension. Par ailleurs, cette méthode requiert de connaître le nombre de clusters. Le Chapitre 2 présente trois méthodes que nous avons développées pour tenter de résoudre les problèmes décrits précédemment. Les travaux qui y sont exposés n'ont pas fait l'objet de recherches approfondies pour diverses raisons. La première méthode, 'lasso graphique sur des mélanges de Gaussiennes', consiste à estimer les matrices inverses des matrices de covariance dans l'hypothèse où celles-ci sont parcimonieuses. Nous adaptons la méthode du lasso graphique de [Friedman et al., 2007] sur une composante dans le cas d'un mélange et nous évaluons expérimentalement cette méthode. Les deux autres méthodes abordent le problème d'estimation du nombre de clusters dans le mélange. La première est une estimation pénalisée de la matrice des probabilités postérieures dont la composante (i,j) est la probabilité que la i-ème observation soit dans le j-ème cluster. Malheureusement, cette méthode s'est avérée trop coûteuse en complexité. Enfin, la deuxième méthode considérée consiste à pénaliser le vecteur de poids afin de le rendre parcimonieux. Cette méthode montre des résultats prometteurs. Dans le Chapitre 3, nous étudions l'estimateur du maximum de vraisemblance d'une densité de n observations i.i.d. sous l’hypothèse qu'elle est bien approximée par un mélange de plusieurs densités données. Nous nous intéressons aux performances de l'estimateur par rapport à la perte de Kullback-Leibler. Nous établissons des bornes de risque sous la forme d'inégalités d'oracle exactes, que ce soit en probabilité ou en espérance. Nous démontrons à travers ces bornes que, dans le cas du problème d’agrégation convexe, l'estimateur du maximum de vraisemblance atteint la vitesse (log K)/n)^{1/2}, qui est optimale à un terme logarithmique près, lorsque le nombre de composant est plus grand que n^{1/2}. Plus important, sous l’hypothèse supplémentaire que la matrice de Gram des composantes du dictionnaire satisfait la condition de compatibilité, les inégalités d'oracles obtenues donnent la vitesse optimale dans le scénario parcimonieux. En d'autres termes, si le vecteur de poids est (presque) D-parcimonieux, nous obtenons une vitesse (Dlog K)/n. En complément de ces inégalités d'oracle, nous introduisons la notion d’agrégation (presque)-D-parcimonieuse et établissons pour ce type d’agrégation les bornes inférieures correspondantes. Enfin, dans le Chapitre 4, nous proposons un algorithme qui réalise l'agrégation en Kullback-Leibler de composantes d'un dictionnaire telle qu'étudiée dans le Chapitre 3. Nous comparons sa performance avec différentes méthodes. Nous proposons ensuite une méthode pour construire le dictionnaire de densités et l’étudions de manière numérique. Cette thèse a été effectué dans le cadre d’une convention CIFRE avec l’entreprise ARTEFACT. / In this thesis, we discuss two topics, high-dimensional clustering on the one hand and estimation of mixing densities on the other. The first chapter is an introduction to clustering. We present various popular methods and we focus on one of the main models of our work which is the mixture of Gaussians. We also discuss the problems with high-dimensional estimation (Section 1.3) and the difficulty of estimating the number of clusters (Section 1.1.4). In what follows, we present briefly the concepts discussed in this manuscript. Consider a mixture of $K$ Gaussians in $RR^p$. One of the common approaches to estimate the parameters is to use the maximum likelihood estimator. Since this problem is not convex, we can not guarantee the convergence of classical methods such as gradient descent or Newton's algorithm. However, by exploiting the biconvexity of the negative log-likelihood, the iterative 'Expectation-Maximization' (EM) procedure described in Section 1.2.1 can be used. Unfortunately, this method is not well suited to meet the challenges posed by the high dimension. In addition, it is necessary to know the number of clusters in order to use it. Chapter 2 presents three methods that we have developed to try to solve the problems described above. The works presented there have not been thoroughly researched for various reasons. The first method that could be called 'graphical lasso on Gaussian mixtures' consists in estimating the inverse matrices of covariance matrices $Sigma$ (Section 2.1) in the hypothesis that they are parsimonious. We adapt the graphic lasso method of [Friedman et al., 2007] to a component in the case of a mixture and experimentally evaluate this method. The other two methods address the problem of estimating the number of clusters in the mixture. The first is a penalized estimate of the matrix of posterior probabilities $ Tau in RR ^ {n times K} $ whose component $ (i, j) $ is the probability that the $i$-th observation is in the $j$-th cluster. Unfortunately, this method proved to be too expensive in complexity (Section 2.2.1). Finally, the second method considered is to penalize the weight vector $ pi $ in order to make it parsimonious. This method shows promising results (Section 2.2.2). In Chapter 3, we study the maximum likelihood estimator of density of $n$ i.i.d observations, under the assumption that it is well approximated by a mixture with a large number of components. The main focus is on statistical properties with respect to the Kullback-Leibler loss. We establish risk bounds taking the form of sharp oracle inequalities both in deviation and in expectation. A simple consequence of these bounds is that the maximum likelihood estimator attains the optimal rate $((log K)/n)^{1/2}$, up to a possible logarithmic correction, in the problem of convex aggregation when the number $K$ of components is larger than $n^{1/2}$. More importantly, under the additional assumption that the Gram matrix of the components satisfies the compatibility condition, the obtained oracle inequalities yield the optimal rate in the sparsity scenario. That is, if the weight vector is (nearly) $D$-sparse, we get the rate $(Dlog K)/n$. As a natural complement to our oracle inequalities, we introduce the notion of nearly-$D$-sparse aggregation and establish matching lower bounds for this type of aggregation. Finally, in Chapter 4, we propose an algorithm that performs the Kullback-Leibler aggregation of components of a dictionary as discussed in Chapter 3. We compare its performance with different methods: the kernel density estimator , the 'Adaptive Danzig' estimator, the SPADES and EM estimator with the BIC criterion. We then propose a method to build the dictionary of densities and study it numerically. This thesis was carried out within the framework of a CIFRE agreement with the company ARTEFACT.
158

Learning from ranking data : theory and methods / Apprendre des données de classement : théorie et méthodes

Korba, Anna 25 October 2018 (has links)
Les données de classement, c.à. d. des listes ordonnées d'objets, apparaissent naturellement dans une grande variété de situations, notamment lorsque les données proviennent d’activités humaines (bulletins de vote d'élections, enquêtes d'opinion, résultats de compétitions) ou dans des applications modernes du traitement de données (moteurs de recherche, systèmes de recommendation). La conception d'algorithmes d'apprentissage automatique, adaptés à ces données, est donc cruciale. Cependant, en raison de l’absence de structure vectorielle de l’espace des classements et de sa cardinalité explosive lorsque le nombre d'objets augmente, la plupart des méthodes classiques issues des statistiques et de l’analyse multivariée ne peuvent être appliquées directement. Par conséquent, la grande majorité de la littérature repose sur des modèles paramétriques. Dans cette thèse, nous proposons une théorie et des méthodes non paramétriques pour traiter les données de classement. Notre analyse repose fortement sur deux astuces principales. La première est l’utilisation poussée de la distance du tau de Kendall, qui décompose les classements en comparaisons par paires. Cela nous permet d'analyser les distributions sur les classements à travers leurs marginales par paires et à travers une hypothèse spécifique appelée transitivité, qui empêche les cycles dans les préférences de se produire. La seconde est l'utilisation des fonctions de représentation adaptées aux données de classements, envoyant ces dernières dans un espace vectoriel. Trois problèmes différents, non supervisés et supervisés, ont été abordés dans ce contexte: l'agrégation de classement, la réduction de dimensionnalité et la prévision de classements avec variables explicatives.La première partie de cette thèse se concentre sur le problème de l'agrégation de classements, dont l'objectif est de résumer un ensemble de données de classement par un classement consensus. Parmi les méthodes existantes pour ce problème, la méthode d'agrégation de Kemeny se démarque. Ses solutions vérifient de nombreuses propriétés souhaitables, mais peuvent être NP-difficiles à calculer. Dans cette thèse, nous avons étudié la complexité de ce problème de deux manières. Premièrement, nous avons proposé une méthode pour borner la distance du tau de Kendall entre tout candidat pour le consensus (généralement le résultat d'une procédure efficace) et un consensus de Kemeny, sur tout ensemble de données. Nous avons ensuite inscrit le problème d'agrégation de classements dans un cadre statistique rigoureux en le reformulant en termes de distributions sur les classements, et en évaluant la capacité de généralisation de consensus de Kemeny empiriques.La deuxième partie de cette théorie est consacrée à des problèmes d'apprentissage automatique, qui se révèlent être étroitement liés à l'agrégation de classement. Le premier est la réduction de la dimensionnalité pour les données de classement, pour lequel nous proposons une approche de transport optimal, pour approximer une distribution sur les classements par une distribution montrant un certain type de parcimonie. Le second est le problème de la prévision des classements avec variables explicatives, pour lesquelles nous avons étudié plusieurs méthodes. Notre première proposition est d’adapter des méthodes constantes par morceaux à ce problème, qui partitionnent l'espace des variables explicatives en régions et assignent à chaque région un label (un consensus). Notre deuxième proposition est une approche de prédiction structurée, reposant sur des fonctions de représentations, aux avantages théoriques et computationnels, pour les données de classements. / Ranking data, i.e., ordered list of items, naturally appears in a wide variety of situations, especially when the data comes from human activities (ballots in political elections, survey answers, competition results) or in modern applications of data processing (search engines, recommendation systems). The design of machine-learning algorithms, tailored for these data, is thus crucial. However, due to the absence of any vectorial structure of the space of rankings, and its explosive cardinality when the number of items increases, most of the classical methods from statistics and multivariate analysis cannot be applied in a direct manner. Hence, a vast majority of the literature rely on parametric models. In this thesis, we propose a non-parametric theory and methods for ranking data. Our analysis heavily relies on two main tricks. The first one is the extensive use of the Kendall’s tau distance, which decomposes rankings into pairwise comparisons. This enables us to analyze distributions over rankings through their pairwise marginals and through a specific assumption called transitivity, which prevents cycles in the preferences from happening. The second one is the extensive use of embeddings tailored to ranking data, mapping rankings to a vector space. Three different problems, unsupervised and supervised, have been addressed in this context: ranking aggregation, dimensionality reduction and predicting rankings with features.The first part of this thesis focuses on the ranking aggregation problem, where the goal is to summarize a dataset of rankings by a consensus ranking. Among the many ways to state this problem stands out the Kemeny aggregation method, whose solutions have been shown to satisfy many desirable properties, but can be NP-hard to compute. In this work, we have investigated the hardness of this problem in two ways. Firstly, we proposed a method to upper bound the Kendall’s tau distance between any consensus candidate (typically the output of a tractable procedure) and a Kemeny consensus, on any dataset. Then, we have casted the ranking aggregation problem in a rigorous statistical framework, reformulating it in terms of ranking distributions, and assessed the generalization ability of empirical Kemeny consensus.The second part of this thesis is dedicated to machine learning problems which are shown to be closely related to ranking aggregation. The first one is dimensionality reduction for ranking data, for which we propose a mass-transportation approach to approximate any distribution on rankings by a distribution exhibiting a specific type of sparsity. The second one is the problem of predicting rankings with features, for which we investigated several methods. Our first proposal is to adapt piecewise constant methods to this problem, partitioning the feature space into regions and locally assigning as final label (a consensus ranking) to each region. Our second proposal is a structured prediction approach, relying on embedding maps for ranking data enjoying theoretical and computational advantages.
159

Contribution à la statistique des diffusions. Estimation semiparamétrique et efficacité au second ordre.<br />Agrégation et réduction de dimension pour le modèle de régression.

Dalalyan, Arnak 22 November 2007 (has links) (PDF)
Ce texte constitue une synthèse de mes travaux de recherche menés depuis 2000 en statistique mathématique. Ces travaux s'articulent autour de 4 thèmes: la statistique non paramétrique pour les processus de diffusion, efficacité au second ordre pour l'estimation semiparamétrique, agrégation par des poids exponentiels et réduction de dimension pour la régression non paramétrique. <br />Le premier chapitre contient une description générale des résultats obtenus en les replaçant dans un contexte historique et en présentant les motivations qui nous ont animées pour étudier ces problèmes. J'y décris également de façon informelle les idées clés des démonstrations. <br /><br />Au second chapitre, je présente les définitions principales nécessaires pour énoncer de façon rigoureuse les résultats les plus importants. Ce chapitre contient également une discussion plus formelle permettant de mettre en lumière certains aspects théoriques et pratiques de nos résultats.
160

Méthodes d'apprentissage statistique pour le ranking théorie, algorithmes et applications

Robbiano, Sylvain 19 June 2013 (has links) (PDF)
Le ranking multipartite est un problème d'apprentissage statistique qui consiste à ordonner les observations qui appartiennent à un espace de grande dimension dans le même ordre que les labels, de sorte que les observations avec le label le plus élevé apparaissent en haut de la liste. Cette thèse vise à comprendre la nature probabiliste du problème de ranking multipartite afin d'obtenir des garanties théoriques pour les algorithmes de ranking. Dans ce cadre, la sortie d'un algorithme de ranking prend la forme d'une fonction de scoring, une fonction qui envoie l'espace des observations sur la droite réelle et l'ordre final est construit en utilisant l'ordre induit par la droite réelle. Les contributions de ce manuscrit sont les suivantes : d'abord, nous nous concentrons sur la caractérisation des solutions optimales de ranking multipartite. Une nouvelle condition sur les rapports de vraisemblance est introduite et jugée nécessaire et suffisante pour rendre le problème de ranking multipartite bien posé. Ensuite, nous examinons les critères pour évaluer la fonction de scoring et on propose d'utiliser une généralisation de la courbe ROC nommée la surface ROC pour cela ainsi que le volume induit par cette surface. Pour être utilisée dans les applications, la contrepartie empirique de la surface ROC est étudiée et les résultats sur sa consistance sont établis. Le deuxième thème de recherche est la conception d'algorithmes pour produire des fonctions de scoring. La première procédure est basée sur l'agrégation des fonctions de scoring apprises sur des sous-problèmes de ranking binaire. Dans le but d'agréger les ordres induits par les fonctions de scoring, nous utilisons une approche métrique basée sur le de Kendall pour trouver une fonction de scoring médiane. La deuxième procédure est une méthode récursive, inspirée par l'algorithme TreeRank qui peut être considéré comme une version pondérée de CART. Une simple modification est proposée pour obtenir une approximation de la surface ROC optimale en utilisant une fonction de scoring constante par morceaux. Ces procédures sont comparées aux algorithmes de l'état de l'art pour le ranking multipartite en utilisant des jeux de données réelles et simulées. Les performances mettent en évidence les cas où nos procédures sont bien adaptées, en particulier lorsque la dimension de l'espace des caractéristiques est beaucoup plus grand que le nombre d'étiquettes. Enfin, nous revenons au problème de ranking binaire afin d'établir des vitesses minimax adaptatives de convergence. Ces vitesses sont montrées pour des classes de distributions contrôlées par la complexité de la distribution a posteriori et une condition de faible bruit. La procédure qui permet d'atteindre ces taux est basée sur des estimateurs de type plug-in de la distribution a posteriori et une méthode d'agrégation utilisant des poids exponentiels.

Page generated in 0.0694 seconds