Spelling suggestions: "subject:"arbres"" "subject:"marbres""
341 |
Algorithmes pour la fouille de données et la bio-informatique / Algorithms for data mining and bio-informaticsMondal, Kartick Chandra 12 July 2013 (has links)
L'extraction de règles d'association et de bi-clusters sont deux techniques de fouille de données complémentaires majeures, notamment pour l'intégration de connaissances. Ces techniques sont utilisées dans de nombreux domaines, mais aucune approche permettant de les unifier n'a été proposée. Hors, réaliser ces extractions indépendamment pose les problèmes des ressources nécessaires (mémoire, temps d'exécution et accès aux données) et de l'unification des résultats. Nous proposons une approche originale pour extraire différentes catégories de modèles de connaissances tout en utilisant un minimum de ressources. Cette approche est basée sur la théorie des ensembles fermés et utilise une nouvelle structure de données pour extraire des représentations conceptuelles minimales de règles d'association, bi-clusters et règles de classification. Ces modèles étendent les règles d'association et de classification et les bi-clusters classiques, les listes d'objets supportant chaque modèle et les relations hiérarchiques entre modèles étant également extraits. Cette approche a été appliquée pour l'analyse de données d'interaction protéomiques entre le virus VIH-1 et l'homme. L'analyse de ces interactions entre espèces est un défi majeur récent en bio-informatique. Plusieurs bases de données intégrant des informations hétérogènes sur les interactions et des connaissances biologiques sur les protéines ont été construites. Les résultats expérimentaux montrent que l'approche proposée peut traiter efficacement ces bases de données et que les modèles conceptuels extraits peuvent aider à la compréhension et à l'analyse de la nature des relations entre les protéines interagissant. / Knowledge pattern extraction is one of the major topics in the data mining and background knowledge integration domains. Out of several data mining techniques, association rule mining and bi-clustering are two major complementary tasks for these topics. These tasks gained much importance in many domains in recent years. However, no approach was proposed to perform them in one process. This poses the problems of resources required (memory, execution times and data accesses) to perform independent extractions and of the unification of the different results. We propose an original approach for extracting different categories of knowledge patterns while using minimum resources. This approach is based on the frequent closed patterns theoretical framework and uses a novel suffix-tree based data structure to extract conceptual minimal representations of association rules, bi-clusters and classification rules. These patterns extend the classical frameworks of association and classification rules, and bi-clusters as data objects supporting each pattern and hierarchical relationships between patterns are also extracted. This approach was applied to the analysis of HIV-1 and human protein-protein interaction data. Analyzing such inter-species protein interactions is a recent major challenge in computational biology. Databases integrating heterogeneous interaction information and biological background knowledge on proteins have been constructed. Experimental results show that the proposed approach can efficiently process these databases and that extracted conceptual patterns can help the understanding and analysis of the nature of relationships between interacting proteins.
|
342 |
Programmation en lambda-calcul pur et typéNour, Karim 14 January 2000 (has links) (PDF)
Mes travaux de recherche portent sur la théorie de la démonstration, le lambda-calcul et l'informatique théorique, dans la ligne de la correspondance de Curry-Howard entre les preuves et les programmes.<br /><br />Dans ma thèse de doctorat, j'ai étudié les opérateurs de mise en mémoire pour les types de données. Ces notions, qui sont introduites par Krivine, permettent de programmer en appel par valeur tout en utilisant la stratégie de la réduction de tête pour exécuter les $\lambda$-termes. Pour cette étude, j'ai introduit avec David une extension du $\lambda$-calcul avec substitutions explicites appelée $\lambda$-calcul dirigé. Nous en avons déduit une nouvelle caractérisation des termes de mise en mémoire et obtenu des nombreux résultats très fins à leur sujet. En ce qui concerne le typage des opérateurs de mise en mémoire, Krivine a trouvé une formule du second ordre, utilisant la non-non traduction de Gödel de la logique classique dans la logique intuitionniste, qui caractérise ces opérateurs. Je me suis attaché à diverses généralisations du résultat de Krivine pour les types à quantificateur positif dans des extensions de la logique des prédicats du second ordre.<br /><br />J'ai poursuivi, après ma thèse, une activité de recherche sur l'extension de la correspondance de Curry-Howard à la logique classique, au moyen des instructions de contrôle. J'ai étudié des problèmes liés aux types de données dans deux de ces systèmes : le $\lambda \mu$-calcul de Parigot et le $\lambda C$-calcul de Krivine. J'ai donné des algorithmes très simples permettant de calculer la valeur d'un entier classique dans ces deux systèmes. J'ai également caractérisé les termes dont le type est l'une des règles de l'absurde. J'ai étendu le système de Parigot pour en obtenir une version non déterministe mais où les entiers se réduisent toujours en entiers de Church. Curieusement, ce système permet de programmer la fonction ``ou parallèle''.<br /><br />Je me suis intéressé aux systèmes numériques qui servent à représenter les entiers naturels au sein du $\lambda$-calcul. J'ai montré que pour un tel système, la possession d'un successeur, d'un prédécesseur et d'un test à zéro sont des propriétés indépendantes, puis qu'un système ayant ces trois fonctions possède toujours un opérateur de mise en mémoire. Dans un cadre typé, j'ai apporté une réponse négative à une conjecture de Tronci qui énonçait une réciproque du résultat précédent.<br /><br />La notion de mise en mémoire ne s'applique qu'à des types de données. Une définition syntaxique a été donné par Böhm et Berarducci, et Krivine a proposé une définition sémantique de ces types. J'ai obtenu avec Farkh des résultats reliant la syntaxe et la sémantique des types de données. Nous avons proposé également des définitions des types entrée et des types sortie pour lesquelles nous avons montré diverses propriétés syntaxiques et sémantiques.<br /><br />J'ai réussi à combiner la logique intuitionniste et la logique classique en une logique mixte. Dans cette logique, on distingue deux genres de variables du second ordre, suivant que l'on peut, ou non, leur appliquer le raisonnement par l'absurde. Ce cadre m'a permi de donner le type le plus général pour les opérateurs de mise en mémoire. Vu le rôle important que cette logique semble devoir jouer dans la théorie de ces opérateurs, j'en ai mené avec A. Nour une étude théorique approfondie. Le système de logique mixte propositionnelle auquelle nous avons abouti évoque les sytèmes $LC$ de Girard et $LK^{tq}$ de Danos, Joinet et Schellinx.<br /><br />Je me suis intéressé avec David à l'équivalence induite par l'égalité entre les arbres de Böhm infiniment $\eta$-expansés. Avec Raffalli, je me suis également intéressé à la sémantique de la logique du second ordre.
|
343 |
Robustesse et émergence dans les systèmes complexes : le modèle des automates cellulairesRouquier, Jean-Baptiste 08 December 2008 (has links) (PDF)
L'objet de ce travail est de mieux comprendre ce qui se produit lorsque l'on perturbe un système complexe, en utilisant les automates cellulaires comme modèle. Nous nous intéressons principalement à deux perturbations. La première concerne l'écoulement du temps : contrairement au modèle habituel, nous utilisons des mises à jour asynchrones, c'est-à-dire que, à chaque étape, seulement une partie des cellules sont mises à jour. L'autre perturbation concerne la topologie, c'est-à-dire le graphe d'interaction entre les cellules.<br>Une première partie étudie expérimentalement l'apparition de la percolation dirigée dans les automates cellulaires, notamment dans le cadre du "damage spreading". Le dernier chapitre de cette partie prouve une équivalence entre une classe d'automates cellulaires probabilistes et les automates cellulaires asynchrones.<br>La seconde partie étudie dans un premier chapitre l'interaction des deux perturbations évoquées: asynchronisme et topologie. Alors que le modèle habituel utilise une grille Zd, nous étudions une grille où certains liens sont temporairement coupés. Puis un second chapitre démontre des propriétés théoriques sur la règles minorité lorsque la topologie est un arbre.<br>Nous avons dans cette thèse mené à la fois des études expérimentales et des études théoriques. Une préoccupation transversale est la simulation formelle entre modèles. L'enjeu de ces travaux est, à terme, de savoir comment obtenir des systèmes ayant un comportement global prédéfini, ou bien comment rendre robuste à certaines perturbations un système complexe donné.
|
344 |
ANCHORAGE MECHANICS OF DIFFERENT TYPES OF ROOT SYSTEMSMickovski, Slobodan B. 11 October 2002 (has links) (PDF)
The research presented in this thesis investigated the functional morphology in root<br />systems in relation to their role in providing anchorage and stability for the plant. The<br />anchorage of different types of root systems was investigated as well as the influence of<br />several environmental factors on their development. The research presented in this study<br />was completed by carrying out a series of modelling, glasshouse and field experiments<br />using physical models and real plants.<br />Model experiments showed that solid shapes like bulbs are very well suited to resist<br />vertical upward forces, i.e. uprooting, and shed some light on the mechanism of<br />anchorage in bulbs. The results of this laboratory study showed that the concept of<br />optimal bulb shape for resisting uprooting is viable. Uprooting tests on real bulb plants<br />confirmed the theoretical predictions about it, and showed the importance of bulbs in<br />anchorage. This study also proved that the soil type is very important when considering<br />the anchorage of solid forms such as the bulbs.<br />A second model study showed that the simplest models of tap root-dominated root<br />systems increase their resistance to overturning with the third and second power of the<br />embedment depth in cohesionless and in cohesive soil respectively. Anchorage strength<br />of a root system dominated by a tap root will be maximised with minimum investment<br />in structural material if the rigid tap root is extended to the largest possible depth.<br />Glasshouse experiments investigated the effects of soil compaction and temperature,<br />two of the most important environmental factors, on the axial and lateral development<br />and growth of the root systems of two species of young pines. It was shown that the rate<br />of root axial development in both investigated species decreased with an increase in soil<br />compaction whereas the lateral proliferation of their roots systems was not significantly<br />affected by soil consistency. A temperature of around 15°C seemed to be optimal for the<br />root elongation rate since the increase in axial length of the roots of both species was<br />largest at this temperature.<br />The effect of mechanical stimulation as a factor in shaping the root systems of plants<br />was also investigated. Apart from the changes caused to the parts of the tree above<br />ground, unidirectional periodical flexing induced an increase in total root CSA and<br />larger biomass allocation to the roots parallel to the plane of flexing which, in turn,<br />resulted in a larger number of major lateral roots with larger CSA in the plane of<br />flexing.<br />Mechanical and morphological field studies on two Pinus species investigated the<br />anchorage of plate root systems and showed that lateral roots in older trees are not the<br />major source of root anchorage in either of the species; although in both species a<br />certain asymmetry in the distribution of major lateral root CSA was recorded, it was not<br />significantly correlated to the asymmetry in anchorage.
|
345 |
Récursivité au carrefour de la modélisation de séquences, des arbres aléatoires, des algorithmes stochastiques et des martingalesCénac, Peggy 15 November 2013 (has links) (PDF)
Ce mémoire est une synthèse de plusieurs études à l'intersection des systèmes dynamiques dans l'analyse statistique de séquences, de l'analyse d'algorithmes dans des arbres aléatoires et des processus stochastiques discrets. Les résultats établis ont des applications dans des domaines variés allant des séquences biologiques aux modèles de régression linéaire, processus de branchement, en passant par la statistique fonctionnelle et les estimations d'indicateurs de risque appliqués à l'assurance. Tous les résultats établis utilisent d'une façon ou d'une autre le caractère récursif de la structure étudiée, en faisant apparaître des invariants comme des martingales. Elles sont au coeur de ce mémoire, utilisées comme outils dans les preuves ou comme objets d'étude.
|
346 |
Apprentissage machine efficace : théorie et pratiqueDelalleau, Olivier 03 1900 (has links)
Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée).
Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre.
Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique. / Despite constant progress in terms of available computational power, memory and amount of data, machine learning algorithms need to be efficient in how they use them. Although minimizing cost is an obvious major concern, another motivation is to attempt to design algorithms that can learn as efficiently as intelligent species. This thesis tackles the problem of efficient learning through various papers dealing with a wide range of machine learning algorithms: this topic is seen both from the point of view of computational efficiency (processing power and memory required by the algorithms) and of statistical efficiency (n
umber of samples necessary to solve a given learning task).The first contribution of this thesis is in shedding light on various statistical inefficiencies in existing algorithms. Indeed, we show that decision trees do not generalize well on tasks with some particular properties (chapter 3), and that a similar flaw affects typical graph-based semi-supervised learning algorithms (chapter 5). This flaw is a form of curse of dimensionality that is specific to each of these algorithms. For a subclass of neural networks, called sum-product networks, we prove that using networks with a single hidden layer can be exponentially less efficient than when using deep networks (chapter 4). Our analyses help better understand some inherent flaws found in these algorithms, and steer research towards approaches that may potentially overcome them.
We also exhibit computational inefficiencies in popular graph-based semi-supervised learning algorithms (chapter 5) as well as in the learning of mixtures of Gaussians with missing data (chapter 6). In both cases we propose new algorithms that make it possible to scale to much larger datasets. The last two chapters also deal with computational efficiency, but in different ways. Chapter 7 presents a new view on the contrastive divergence algorithm (which has been used for efficient training of restricted Boltzmann machines). It provides additional insight on the reasons why this algorithm has been so successful. Finally, in chapter 8 we describe an application of machine learning to video games, where computational efficiency is tied to software and hardware engineering constraints which, although often ignored in research papers, are ubiquitous in practice.
|
347 |
Normalisation et Apprentissage de Transductions d'Arbres en MotsLaurence, Grégoire 04 June 2014 (has links) (PDF)
Le stockage et la gestion de données sont des questions centrales en infor- matique. La structuration sous forme d'arbres est devenue la norme (XML, JSON). Pour en assurer la pérennité et l'échange efficace des données, il est nécessaire d'identifier de nouveaux mécanismes de transformations automati- sables. Nous nous concentrons sur l'étude de transformations d'arbres en mots représentées par des machines à états finies. Nous définissons les transducteurs séquentiels d'arbres en mots ne pouvant utiliser qu'une et unique fois chaque nœud de l'arbre d'entrée pour décider de la production. En réduisant le problème d'équivalence des transducteurs séquentiels à celui des morphismes appliqués à des grammaires algébriques (Plandowski, 95), nous prouvons qu'il est décidable en temps polynomial. Cette thèse introduit la notion de transducteur travailleur, forme norma- lisée de transducteurs séquentiels, cherchant à produire la sortie le "plus tôt possible" dans la transduction. A l'aide d'un algorithme de normalisation et de minimisation, nous prouvons qu'il existe un représentant canonique, unique transducteur travailleur minimal, pour chaque transduction de notre classe. La décision de l'existence d'un transducteur séquentiel représentant un échantillon, i.e. paires d'entrées et sorties d'une transformation, est prouvée NP-difficile. Nous proposons un algorithme d'apprentissage produisant à par- tir d'un échantillon le transducteur canonique le représentant, ou échouant, le tout en restant polynomial. Cet algorithme se base sur des techniques d'infé- rence grammaticales et sur l'adaptation du théorème de Myhill-Nerode.
|
348 |
Relations entre structure du peuplement végétal et bioagresseurs dans les agroforêts à cacaoyers. Application à trois bioagresseurs du cacaoyer : la moniliose au Costa Rica, la pourriture brune et les mirides au Cameroun.Gidoin, Cynthia 09 December 2013 (has links) (PDF)
Une voie agroécologique pour améliorer la fourniture des services écosystémiques dans les agroécosystèmes est d'associer plusieurs espèces végétales au sein d'une même parcelle. Dans ce contexte, les agroforêts tropicales, caractérisées par une forte diversité végétale, sont un modèle d'étude d'intérêt croissant. Dans ce travail qui porte sur le service de régulation des bioagresseurs, notre hypothèse est que la structure des agroforêts influence la régulation naturelle des bioagresseurs de la culture principale. La composition en plante hôte de l'agroforêt est susceptible d'influencer les bioagresseurs via les variations de la ressource. La structure spatiale de la végétation est susceptible d'influencer les bioagresseurs via les variations des conditions microclimatiques. Enfin, les variations de la ressource et du microclimat ne sont pas des mécanismes indépendants puisqu'un microclimat favorable à la croissance de la plante hôte du bioagresseur peut augmenter la quantité des tissus sensibles et donc la ressource pour ce bioagresseur. Pourtant, l'importance relative de l'effet de la composition et de la structure spatiale de la végétation des agroforêts sur l'intensité l'attaque des bioagresseurs a rarement été étudiée. Les objectifs de ce travail de thèse sont (1) de caractériser la composition et la structure spatiale des peuplements végétaux d'agroforêts à cacaoyers et (2) de quantifier leurs interactions avec l'intensité d'attaque de biogresseurs du cacaoyer. Ce travail est appliqué à trois bioagresseurs du cacaoyer : au Costa Rica, la moniliose sur un réseau de parcelles installé dans la région de Talamanca ; au Cameroun, la pourriture brune des cabosses et les mirides sur un réseau de parcelles installé dans la région Centre. Premièrement, nous avons caractérisé la composition et la structure spatiale de la végétation des agroforêts à cacaoyers du Costa Rica et du Cameroun. Au Costa Rica, nous avons identifié une diversité de structure spatiale des arbres forestiers entre parcelles, allant de l'agrégation à la régularité ce qui semble indiquer un gradient croissant de gestion entre ces parcelles. Au Cameroun, nous avons également observé une diversité de structure spatiale entre peuplement d'une même parcelle. En effet, les arbres forestiers sont aléatoirement distribués ou agrégés alors que les arbres fruitiers sont aléatoirement ou régulièrement distribués à l'échelle de la parcelle ce qui semble indiquer une différence d'intensité de gestion entre ces deux peuplements. Deuxièmement, nous avons hiérarchisé les caractéristiques de composition en hôte, de quantité de tissus sensibles et de structure spatiale de la végétation des agroforêts qui influencent l'intensité (i) de la moniliose (ii) de la pourriture brune et (iii) des mirides. L'intensité de la moniliose et la densité en mirides diminuent lorsque les quantités de tis- sus sensibles diminuent et lorsque les arbres forestiers sont aléatoirement ou régulièrement distribués plutôt qu'agrégés ou en faible densité à l'échelle de la parcelle. D'autre part, l'intensité de la moniliose diminue lorsque la densité en cacaoyers augmente et l'intensité de la pourriture brune diminue lorsque l'abondance en cacaoyers augmente, ces résultats étant contraires aux hypothèses de diminution et de dilution de la ressource. Globalement, nos résultats indiquent donc que les variations de la ressource liées aux variations de la composition en hôte ne sont pas le principal effet qui explique la présence des bioagresseurs dans les agroforêts complexes. La structure spatiale des arbres d'ombrage, encore jamais décrite à notre niveau de précision, joue un rôle déterminant et son optimisation pourrait être un moyen de lutte agroécologique contre la moniliose et les mirides du cacaoyer. Dans le cadre de l'agroécologie, ce travail nous a permis d'améliorer notre compréhension des mécanismes écologiques impliqués dans la régulation des bioagresseurs du cacaoyer à l'échelle de la parcelle et ouvre des perspectives pour leur gestion agroécologique.
|
349 |
Détection robuste de jonctions et points d'intérêt dans les images et indexation rapide de caractéristiques dans un espace de grande dimension / Robust junction for line-drawing images and time-efficient feature indexing in feature vector spacePham, The Anh 27 November 2013 (has links)
Les caractéristiques locales sont essentielles dans de nombreux domaines de l’analyse d’images comme la détection et la reconnaissance d’objets, la recherche d’images, etc. Ces dernières années, plusieurs détecteurs dits locaux ont été proposés pour extraire de telles caractéristiques. Ces détecteurs locaux fonctionnent généralement bien pour certaines applications, mais pas pour toutes. Prenons, par exemple, une application de recherche dans une large base d’images. Dans ce cas, un détecteur à base de caractéristiques binaires pourrait être préféré à un autre exploitant des valeurs réelles. En effet, la précision des résultats de recherche pourrait être moins bonne tout en restant raisonnable, mais probablement avec un temps de réponse beaucoup plus court. En général, les détecteurs locaux sont utilisés en combinaison avec une méthode d’indexation. En effet, une méthode d’indexation devient nécessaire dans le cas où les ensembles de points traités sont composés de milliards de points, où chaque point est représenté par un vecteur de caractéristiques de grande dimension. / Local features are of central importance to deal with many different problems in image analysis and understanding including image registration, object detection and recognition, image retrieval, etc. Over the years, many local detectors have been presented to detect such features. Such a local detector usually works well for some particular applications but not all. Taking an application of image retrieval in large database as an example, an efficient method for detecting binary features should be preferred to other real-valued feature detection methods. The reason is easily seen: it is expected to have a reasonable precision of retrieval results but the time response must be as fast as possible. Generally, local features are used in combination with an indexing scheme. This is highly needed for the case where the dataset is composed of billions of data points, each of which is in a high-dimensional feature vector space.
|
350 |
Estimation robuste de courbes de consommmation électrique moyennes par sondage pour de petits domaines en présence de valeurs manquantes / Robust estimation of mean electricity consumption curves by sampling for small areas in presence of missing valuesDe Moliner, Anne 05 December 2017 (has links)
Dans cette thèse, nous nous intéressons à l'estimation robuste de courbes moyennes ou totales de consommation électrique par sondage en population finie, pour l'ensemble de la population ainsi que pour des petites sous-populations, en présence ou non de courbes partiellement inobservées.En effet, de nombreuses études réalisées dans le groupe EDF, que ce soit dans une optique commerciale ou de gestion du réseau de distribution par Enedis, se basent sur l'analyse de courbes de consommation électrique moyennes ou totales, pour différents groupes de clients partageant des caractéristiques communes. L'ensemble des consommations électriques de chacun des 35 millions de clients résidentiels et professionnels Français ne pouvant être mesurées pour des raisons de coût et de protection de la vie privée, ces courbes de consommation moyennes sont estimées par sondage à partir de panels. Nous prolongeons les travaux de Lardin (2012) sur l'estimation de courbes moyennes par sondage en nous intéressant à des aspects spécifiques de cette problématique, à savoir l'estimation robuste aux unités influentes, l'estimation sur des petits domaines, et l'estimation en présence de courbes partiellement ou totalement inobservées.Pour proposer des estimateurs robustes de courbes moyennes, nous adaptons au cadre fonctionnel l'approche unifiée d'estimation robuste en sondages basée sur le biais conditionnel proposée par Beaumont (2013). Pour cela, nous proposons et comparons sur des jeux de données réelles trois approches : l'application des méthodes usuelles sur les courbes discrétisées, la projection sur des bases de dimension finie (Ondelettes ou Composantes Principales de l'Analyse en Composantes Principales Sphériques Fonctionnelle en particulier) et la troncature fonctionnelle des biais conditionnels basée sur la notion de profondeur d'une courbe dans un jeu de données fonctionnelles. Des estimateurs d'erreur quadratique moyenne instantanée, explicites et par bootstrap, sont également proposés.Nous traitons ensuite la problématique de l'estimation sur de petites sous-populations. Dans ce cadre, nous proposons trois méthodes : les modèles linéaires mixtes au niveau unité appliqués sur les scores de l'Analyse en Composantes Principales ou les coefficients d'ondelettes, la régression fonctionnelle et enfin l'agrégation de prédictions de courbes individuelles réalisées à l'aide d'arbres de régression ou de forêts aléatoires pour une variable cible fonctionnelle. Des versions robustes de ces différents estimateurs sont ensuite proposées en déclinant la démarche d'estimation robuste basée sur les biais conditionnels proposée précédemment.Enfin, nous proposons quatre estimateurs de courbes moyennes en présence de courbes partiellement ou totalement inobservées. Le premier est un estimateur par repondération par lissage temporel non paramétrique adapté au contexte des sondages et de la non réponse et les suivants reposent sur des méthodes d'imputation. Les portions manquantes des courbes sont alors déterminées soit en utilisant l'estimateur par lissage précédemment cité, soit par imputation par les plus proches voisins adaptée au cadre fonctionnel ou enfin par une variante de l'interpolation linéaire permettant de prendre en compte le comportement moyen de l'ensemble des unités de l'échantillon. Des approximations de variance sont proposées dans chaque cas et l'ensemble des méthodes sont comparées sur des jeux de données réelles, pour des scénarios variés de valeurs manquantes. / In this thesis, we address the problem of robust estimation of mean or total electricity consumption curves by sampling in a finite population for the entire population and for small areas. We are also interested in estimating mean curves by sampling in presence of partially missing trajectories.Indeed, many studies carried out in the French electricity company EDF, for marketing or power grid management purposes, are based on the analysis of mean or total electricity consumption curves at a fine time scale, for different groups of clients sharing some common characteristics.Because of privacy issues and financial costs, it is not possible to measure the electricity consumption curve of each customer so these mean curves are estimated using samples. In this thesis, we extend the work of Lardin (2012) on mean curve estimation by sampling by focusing on specific aspects of this problem such as robustness to influential units, small area estimation and estimation in presence of partially or totally unobserved curves.In order to build robust estimators of mean curves we adapt the unified approach to robust estimation in finite population proposed by Beaumont et al (2013) to the context of functional data. To that purpose we propose three approaches : application of the usual method for real variables on discretised curves, projection on Functional Spherical Principal Components or on a Wavelets basis and thirdly functional truncation of conditional biases based on the notion of depth.These methods are tested and compared to each other on real datasets and Mean Squared Error estimators are also proposed.Secondly we address the problem of small area estimation for functional means or totals. We introduce three methods: unit level linear mixed model applied on the scores of functional principal components analysis or on wavelets coefficients, functional regression and aggregation of individual curves predictions by functional regression trees or functional random forests. Robust versions of these estimators are then proposed by following the approach to robust estimation based on conditional biais presented before.Finally, we suggest four estimators of mean curves by sampling in presence of partially or totally unobserved trajectories. The first estimator is a reweighting estimator where the weights are determined using a temporal non parametric kernel smoothing adapted to the context of finite population and missing data and the other ones rely on imputation of missing data. Missing parts of the curves are determined either by using the smoothing estimator presented before, or by nearest neighbours imputation adapted to functional data or by a variant of linear interpolation which takes into account the mean trajectory of the entire sample. Variance approximations are proposed for each method and all the estimators are compared to each other on real datasets for various missing data scenarios.
|
Page generated in 0.0512 seconds